【OpenAI】次世代大規模言語モデル「GPT-5」の情報まとめ【ChatGPT5】

ChatGPT、皆さん使っていますでしょうか。私は大学のレポートを作るときに活用しています。活用しているっていうかもはやChatGPTまかせっきりなんですけどね…笑

さてみんな大好きChatGPTですが、2023年6月現在無料で使えるのはGPT-3.5という言語モデルを採用したもので、有料プランに加入すればGPT-4というさらに進化したモデルを使うことができます。

GPT-4の時点でかなり高性能で、もはやこれ以上何を求めるんだって感じですが、OpenAIの進化は止められません。　既に次世代の大規模言語モデルであるGPT-5について噂されています。

今回は、そんなGPT-5では一体どんなことができるようになるのかについて語っていきたいと思います。

この記事の要点

GPT-5では画像入力に加えて音声や動画入力にも対応するようになるかもしれない
GPT-5ではさらに学習の幅が広がって、より高精度な回答を実現する
GPT-5ではアプリやIoTなどとの連携が進み、言語タスク以外にも生活内のあらゆるタスクをこなしてくれるモデルになるかもしれない
GPT-5は2025年ごろに登場する可能性が高い

GPT-5ではどんなことができるようになる？

いつものように「そもそもChatGPTとは？」みたいな見出しから始めようとしたのですが、ChatGPTについて今更説明する必要もないかなと思ってやめておきました。

ちなみに以前にChatGPTの仕組みについて超分かりやすく解説しましたので、ぜひそちらの記事もご覧ください。

猿でも分かるChatGPTの仕組み【図解】

さて、新しく開発されるGPT-5についてですが、一体どのようなことができるようになるのかといったところを語っていきたいと思います。

※なお、噂情報に過ぎません。

オーディオやビデオの対応

GPT-3.5ではテキスト入力のみとなっていた言語モデルですが、GPT-4では画像入力も取り入れられました。まだ画像入力機能は整っていないみたいですが、そのうちしっかりと使えるようになるでしょう。

そしてGPT-5ですが、さらにモダリティが追加されてオーディオやビデオによる入力も可能になるかもしれないとのことです。　テキスト・画像に関しては動きのない静的な情報でしたが、動画や音声については動的な情報になりますので、一気に情報量が増えます。　それに対応するというのはとてもすごいことですね。

音声入力に関して言えば、人間が発した言葉を文字起こしして従来のようにテキスト入力すればいい話ですよね。　ただ、歌などについてはどうでしょうか。音程なども非常に重要になってくるので、それをテキストとして入力するのは至難の業でしょう。

そして歌をうまく入力してメロディやテンポを理解できたらそれに似た曲を探すなんてことも可能になるかもしれません。

似た曲を探すだけでなく、例えば「この曲の楽譜を作ってください」とか「どうやったらここから歌がうまくなれますか」みたいな相談もできるようになるかもしれません。

加えて、大量の音声データから学習することで自身も音声データを作れるようになり、例えば架空の曲を作って演奏してくれるような機能やイントネーションまでかなり忠実に再現しつつ、自然に日本語で会話してくれるような機能みたいなのも追加されるかもしれませんね。

ビデオ入力についても、もしかしたら「このビデオの一番盛り上がる場面を教えてください」とか「このMVの改善点を教えてください」とか、もしかしたら「このプレゼンテーションの改善点を教えてください」みたいなのもできるようになるかもしれませんね。

ただし音声や動画を扱えるようにするためにどうやって学習するかといった問題ですよね。テキストや画像情報はWebコーパスから取得できると思いますが、動画や音声はそうはいかないかと思います。

そうなったらやっぱりYoutubeとかから学習するしかないですよね。そこら辺どうするのかよくわからないです。

さらに高精度な回答

GPT-3.5からGPT-4にかけてもかなり回答は高精度になりました。もう課題の問題文をそのまま入力して、ChatGPTが出力してくれた文章を何にも確認せずにそのまま提出してもいいのではないかと思ってしまうくらいの代物です。

しかしながらそれでも、かなり専門的な分野になるとあいまいな説明をしだしたり、時には全く違うことを自信をもって主張したりすることもあります。体感的には、正確率は90%くらいな感じがしますね。

そしてGPT-5では音声や動画などからも学習したりして学習の幅がさらに広がることで、さらに精度が高くなることが見込まれます。　現在は出力を一度人間の目で確認してから回答を様々なことに活用していると思いますが、GPT-5からはもう精度を完全に信じ切って出力文をちゃんと確認せずにそのまま活用するなんて時代が来そうですね。

言語モデルの性能を表す値として使われがちな「パラメータ数」についても格段に増える見込みです。パラメータ数っていうのは、めっちゃかみ砕いて説明すると人間でいう語彙力みたいなもので、要するにある物事に対してどれだけの解像度で解釈を行うことができるのか、どれだけの解像度で説明することができるのか、みたいな感じでしょう。

参考：https://gmotech.jp/semlabo/seo/blog/howto-parameter/#:~:text=%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E3%83%BC(parameters)%E3%81%A8%E3%81%AF%E3%80%81,%E3%81%AEx%E3%81%8C%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E3%83%BC%E3%81%A7%E3%81%99%E3%80%82

汎用人工知能（AGI）

現在のGPT-4モデルと言ったら特定の言語タスクに対して有用な言語モデルです。といっても思いつく限りほとんどの言語タスクをこなせるくらい、その活躍の幅は広いわけですが、それでも実際に直接ChatGPTがアプリなどを活用して仕事をこなしてくれるということはないです。

しかしGPT-5ではサードパーティアプリなどとの連携が進んで、言語モデルであるはずのGPTがアプリを操作してタスクをこなしてくれるようになるかもしれないとのことです。　現在もAPIを利用することでChatGPTと様々なアプリをつなぐことはできるのですが、「つなぐ」部分に関しては人為的な介入が必要です。そこでボトルネックが発生してしまっている可能性があります。

そこで言語モデルとアプリケーションをダイレクトに接続することで、より高いレベルの処理ができるようになることが期待されています。ただしその分AIに割り当てられる権限が必然的に高くなりますので、人間には理解しがたい処理をしだしてしまうかもしれませんね。　そこら辺の権限管理は必要そうです。

また、アプリとの連携だけでなく「IoT」系の製品、例えばネットにつながる冷蔵庫みたいな家電とかとも連携して、生活の手助けをしてくれるようになるかもしれません。

そうなると言語モデルの範疇を逸脱して、汎用的なタスクに対応できる汎用人工知能（AGIというらしい）として活躍できるようになるかもしれません。

参考：https://kakeruai.jp/glossary/artificial-general-intelligence/

ただし汎用人工知能（AGI）について調べてみたところ、感情を持ったAIみたいな説明がされていてなんかしっくりこなかったですね。　GPT系のモデルの役割はあらゆるタスクを行うことであり、恐らく感情を持ったりすることが想定されているわけではないと思いますが…　まぁでも雑談をしたいみたいな言語タスクに対応するためには見かけ上の感情みたいなのも必要なのかもしれませんね。

とりあえず、GPT-5が完全なる汎用人工知能になれるかといったらそんなことはなさそうです。

GPT-5の登場時期

これらの機能が追加されるとしたらGPT-4よりも格段に便利になりそうですが、気になるのは登場時期ですよね。

とはいえ、開発にかなりコストがかかったであろうGPT-4モデルがまだ登場したばかりですし、GPT-4の機能整備もまだ進んでいる最中です。　少なくともあと1年間は登場しないでしょうし、恐らく登場するのは2025年頃でしょう。

GPT-4の開発にも丸2年くらいかかったみたいなので、2025年頃ローンチを目標にしたとしても、そろそろGPT-5の学習を始めないといけなさそうです。もう進んでいるんですかね？

OpenAIは結構内密的に開発しているようなので、GPT-5が登場する直前くらいにならないとわからなさそうです。

参考記事：https://www.androidauthority.com/gpt-5-chatgpt-release-date-rumors-features-3337892/