論文解説　トランスフォーマーとLLMの文脈内学習

タイトル: Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions

著者: Satwik Bhattamishra, Arkil Patel, Phil Blunsom, Varun Kanade

論文のURL: https://arxiv.org/abs/2310.03016

この論文の解説です。 論文発表日: 4 Oct 2023

この研究は、トランスフォーマーと大規模言語モデル（LLM）が「文脈内学習」をどのように行うかを理解するためのものです。文脈内学習とは、与えられた情報や文脈に基づいて新しいタスクを学習する能力のことを指します。

最近の研究では、トランスフォーマーがさまざまな実数値関数の勾配ベースの学習アルゴリズムを学ぶことができることが示されています。しかし、トランスフォーマーの学習アルゴリズムの実装における制限や、他の形式のアルゴリズムを学ぶ能力はまだ十分に理解されていません。

この研究では、以下の点を示しています：

さまざまなブール関数クラスを持つテストベッドで、トランスフォーマーは「単純な」タスクの最適な学習アルゴリズムにほぼ匹敵するが、「複雑な」タスクでは性能が低下する。
教示シーケンス（クラス内の関数を一意に識別する一連の例）が提供されると、トランスフォーマーはよりサンプル効率的に学習する。
トランスフォーマーは、単一のタスクを解決するための2つの異なるアルゴリズムを学ぶことができ、文脈内の例のシーケンスに応じてよりサンプル効率的なアルゴリズムを適応的に選択することができる。
既存のLLM（例：LLaMA-2, GPT-4）は、訓練セットに含まれていない予測タスクで最近傍ベースラインと競合することができる。