論文解説 LLMで特定の情報を出力させないためには

タイトル: Who's Harry Potter? Approximate Unlearning in LLMs

著者: Ronen Eldan, Mark Russinovich

論文のURL: https://arxiv.org/abs/2310.02238

この論文の解説です。

論文発表日: 3 Oct 2023

専門外の人でも分かるような説明

この研究は、大規模な言語モデル（LLM）から特定の情報を「忘れさせる」方法についてのものです。例として、ハリー・ポッターの本の情報をモデルから取り除く方法を提案しています。これは、モデルが著作権で保護された内容を学習してしまうことの問題を解決するためのものです。

要約

大規模言語モデル（LLM）は、著作権で保護された内容を含むインターネットの大量のデータで訓練されています。これは、モデルの開発者やユーザー、オリジナルの著者や出版社にとって法的・倫理的な課題となっています。この論文では、LLMから訓練データの一部を「忘れさせる」新しい技術を提案しています。具体的には、Metaが最近オープンソース化したLlama2-7bモデルからハリー・ポッターの本を「忘れさせる」タスクでこの技術を評価しています。この技術は、ターゲットデータの特定の表現を一般的なものに置き換え、モデルの予測を使用して各トークンの代替ラベルを生成することで、ターゲットデータを学習していないモデルの次のトークンの予測を近似することを目的としています。

従来とは異なるこの論文の新しい点

この論文は、大規模言語モデルから特定の訓練データを「忘れさせる」ための新しい技術を提案しています。この技術は、モデルをゼロから再訓練することなく、特定のデータをモデルから取り除くことができます。また、この技術を使用してハリー・ポッターの本の情報をモデルから効果的に取り除くことができることを示しています。