← すべてのクイズに戻るガイド連動クイズ • 中レベル • 6 質問

直接優先最適化クイズ

Direct Preference Optimization がどのように機能し、なぜ調整が簡素化されるのかについての理解をテストします。

関連するガイドパス

直接的なプリファレンスの最適化

質問 1 の 6正解: 0

従来の RLHF と比較して、DPO は何を排除しますか?