すべてのクイズに戻るガイド連動クイズ レベル6 質問

直接優先最適化クイズ

Direct Preference Optimization がどのように機能し、なぜ調整が簡素化されるのかについての理解をテストします。

質問 1 6正解: 0

従来の RLHF と比較して、DPO は何を排除しますか?