← すべてのクイズに戻るガイド連動クイズ • 中レベル • 6 質問

反復的な DPO およびオンライン設定チューニングクイズ

反復的なオンライン設定の最適化によって言語モデルがどのように改善されるかを理解していることを確認してください。

関連するガイドパス

反復的な DPO とオンライン設定チューニング

質問 1 の 6正解: 0

従来の RLHF (PPO) が必要とするものを DPO が回避しているのは何ですか?