ITエンジニアノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします！https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

RLHF RLHFは大規模言語モデル(LLM)を人の好みに合わせた出力をするために用いられる手法です。この技術は強化学習(RL)と人間のフィードバック(HF)を組み合わせた考え方になります。 ChatGPTもRLHFを使ってファインチューニングされています。原著論文はDee…