学ぶ
ニュース
ツール
Jobs
用語集
認定
クイズ
使命
サポート
English
Search
⌘K
AIツール投稿
寄付
English
Search
⌘K
学ぶ
AI Guides & Foundations
ニュース
Latest AI Developments
ツール
Top AI Directory
Jobs
AI Hiring Board
用語集
AI Terms Dictionary
認定
Get Your AI Certificate
クイズ
Interactive AI Assessments
使命
Why We Exist
サポート
Help and Contact
AIツール投稿
寄付
English
← すべてのクイズに戻る
ガイド連動クイズ • 中 レベル • 6 質問
反復的な DPO およびオンライン設定チューニング クイズ
反復的なオンライン設定の最適化によって言語モデルがどのように改善されるかを理解していることを確認してください。
関連するガイドパス
反復的な DPO とオンライン設定チューニング
質問 1 の 6
正解: 0
従来の RLHF (PPO) が必要とするものを DPO が回避しているのは何ですか?
ヒントが必要ですか?
あらゆるトレーニングデータ
別の明示的な報酬モデルをトレーニングする
ニューラルネットワークの使用
完全に人間の好み