ITエンジニア ノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします!https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

2024-02-03から1日間の記事一覧

RLHF(人間のフィードバックによる強化学習)はもう古い?

RLHF RLHFは大規模言語モデル(LLM)を人の好みに合わせた出力をするために用いられる手法です。 この技術は強化学習(RL)と人間のフィードバック(HF)を組み合わせた考え方になります。 ChatGPTもRLHFを使ってファインチューニングされています。 原著論文はDee…