ITエンジニア ノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします!https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

AIニュース OpenAIの新AIモデルGPT-4oポルノフレーズで汚染

2024年5月にOpenAIは最新のAIモデル「GPT-4o」を発表した。高い処理能力が期待されていたが、中国語ユーザーからトレーニングデータに関する問題が指摘されている。トークンデータがスパムやポルノフレーズで汚染されているという報告が上がっている。

GPT-4oの中国語トークン問題

OpenAIが5月13日にリリースしたGPT-4oは、すぐに中国語話者から問題が指摘された。プリンストン大学のティアンラ・サイは、GPT-4oのトークンライブラリを調査し、上位100個の中国語トークンがほとんどギャンブルやポルノ関連のものであることを発見した。これらのトークンは、日常会話で使われるものではなく、モデルの性能に悪影響を及ぼす可能性がある。

トークンの重要性とその影響

LLM(大規模言語モデル)はテキストをトークンという単位で解析する。トークンが適切であるほどモデルの効率が向上し、応答時間やコストが削減される。しかし、GPT-4oの中国語トークンの多くが無意味なフレーズで構成されているため、モデルの性能が低下する可能性がある。サイの調査によると、長いトークンは不適切な内容を含むものが多く、モデルの信頼性に疑問を投げかけている。

新しいトークナイザーとその課題

GPT-4oは新しいトークナイザーを採用しており、多言語対応の強化を目指している。しかし、このトークナイザーのトレーニングデータのクリーニングが不十分であった可能性が高い。専門家は、このデータ問題がモデルのパフォーマンスに影響を与えていると指摘している。特に中国語において、GPT-4oがトークンの意味を適切に把握できず、誤った回答を生成するリスクが高まっている。