ITエンジニアノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします！https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

RLHF(人間のフィードバックによる強化学習)はもう古い？

RLHF

RLHFは大規模言語モデル(LLM)を人の好みに合わせた出力をするために用いられる手法です。この技術は強化学習(RL)と人間のフィードバック(HF)を組み合わせた考え方になります。 ChatGPTもRLHFを使ってファインチューニングされています。原著論文はDeep Reinforcement Learning from Human Preferencesという論文です。 arxiv.org

2023年〜の技術動向

RLHFはLLMにおいてよく使われる方法でしたが、欠点があります。 RLHFは複雑で不安定な手続きです。まず人間の好みを反映した報酬モデルをフィットし、それを最大化するように大規模なLMをファインチューニングします。

Direct Preference Optimization（DPO）

DPOという方法が提案されました。こちらが論文です。Direct Preference Optimization:Your Language Model is Secretly a Reward Model arxiv.org

RLHFとOPD

RLHFの報酬モデルの新しいパラメータ化します。通常のRLHF問題を単純な分類損失だけで解決でき、安定して実用的で計算量も軽減され、ファインチューニング中のLMからのサンプリングや重要なハイパーパラメータの調整が不要になります。 DPOは既存の手法と同等またはそれ以上に、人間の好みに合わせてLMを微調整できることが示されています。特に、DPOは感情の制御においてPPOベースのRLHFを上回っています。

RLHFとDPOの違い

RLHF（Reinforcement Learning from Human Feedback）とDPO（Direct Preference Optimization）の主な違いは、人間のフィードバックを使用した言語モデルの微調整プロセスにおいて、報酬モデルの適合とポリシー最適化の手法にあります。

報酬モデルの適合

RLHF: まず、プロンプトと応答の対に対する人間の好みに関するデータセットに報酬モデルを適合させます。
DPO: 報酬モデルを明示的に適合させる代わりに、DPOは最適化プロセス中に暗黙の報酬モデルを適合させます。

ポリシー最適化:

RLHF: 得られた報酬モデルを使用して、強化学習によって最適なポリシーを見つけ、これを用いてモデルを微調整します。
DPO: 分類目的を使用して、直接的に人間の好みに最も適するポリシーを最適化します。強化学習に頼ることなく、閉形式で最適ポリシーを抽出します。

RLHFは報酬モデルの適合とその報酬に基づく強化学習に依存するのに対し、DPOは報酬モデルを暗黙的に適合させ、直接ポリシーを最適化します。これにより、DPOは計算効率が向上し、安定性が確保されるという特徴を持っています。

今後の動向

Kahneman-Tversky Optimization(KTO)という手法があります。これはRLHF、DPOの学習データの作成コストを削減した方法です。今後の技術動向が気になりますね。

深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト第2版（EXAMPRESS） [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)