すべてのクイズに戻るガイド連動クイズ レベル6 質問

反復的な DPO およびオンライン設定チューニング クイズ

反復的なオンライン設定の最適化によって言語モデルがどのように改善されるかを理解していることを確認してください。

質問 1 6正解: 0

従来の RLHF (PPO) が必要とするものを DPO が回避しているのは何ですか?