OpenAI、GPT-4oを発表
OpenAIは2024年5月13日、新たなフラッグシップモデル「GPT-4o」を発表した。このモデルはテキスト、音声、画像、動画の入力をリアルタイムで処理し、テキスト、音声、画像の出力を生成できる。特に非英語言語のテキスト処理能力が向上し、視覚および音声認識機能においても大きな進歩を遂げた。
GPT-4oの特長
GPT-4oは、複数のモダリティ(テキスト、音声、画像、動画)を統合して処理する初のモデルである。従来のモデルと異なり、入力から出力まで一貫して同一のニューラルネットワークで処理されるため、情報の損失が少ない。特に音声入力のレスポンス時間は232ミリ秒から320ミリ秒で、人間の会話と同等の速度を実現している。
性能と多言語対応
GPT-4oは、英語およびプログラミング言語においてGPT-4 Turboと同等の性能を持ちながら、非英語言語のテキスト処理性能が大幅に向上している。さらに、APIの利用料金が50%削減され、処理速度も大幅に向上している。視覚および音声認識能力においても、従来のモデルを凌駕する性能を示している。
安全性とリスク管理
GPT-4oは、安全性を考慮した設計が施されており、データフィルタリングや行動調整技術を用いてモデルの安全性を確保している。新たな音声モダリティによるリスクにも対応しており、外部の専門家との協力を通じて継続的にリスクを評価し、対策を講じている。現在、音声出力は限定されたプリセットボイスに制限されているが、今後のリリースに向けて技術的インフラや安全性の向上が進められている。
参考
機械学習徹底理解 G検定 概要(前半)
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,080円 |