学ぶ
ニュース
ツール
Jobs
用語集
認定
クイズ
使命
サポート
English
Search
⌘K
AIツール投稿
寄付
English
Search
⌘K
学ぶ
AI Guides & Foundations
ニュース
Latest AI Developments
ツール
Top AI Directory
Jobs
AI Hiring Board
用語集
AI Terms Dictionary
認定
Get Your AI Certificate
クイズ
Interactive AI Assessments
使命
Why We Exist
サポート
Help and Contact
AIツール投稿
寄付
English
← すべてのクイズに戻る
ガイド連動クイズ • 中 レベル • 6 質問
直接優先最適化クイズ
Direct Preference Optimization がどのように機能し、なぜ調整が簡素化されるのかについての理解をテストします。
関連するガイドパス
直接的なプリファレンスの最適化
質問 1 の 6
正解: 0
従来の RLHF と比較して、DPO は何を排除しますか?
ヒントが必要ですか?
人間の好みに関するデータの必要性
個別の報酬モデルと強化学習ループ
基本の事前トレーニング済み言語モデル
対数確率の使用