학습
뉴스
도구
Jobs
용어집
인증
퀴즈
미션
지원
English
Search
⌘K
AI 도구 제출
기부
English
Search
⌘K
학습
AI Guides & Foundations
뉴스
Latest AI Developments
도구
Top AI Directory
Jobs
AI Hiring Board
용어집
AI Terms Dictionary
인증
Get Your AI Certificate
퀴즈
Interactive AI Assessments
미션
Why We Exist
지원
Help and Contact
AI 도구 제출
기부
English
← 모든 퀴즈로 돌아가기
가이드 연계 퀴즈 • 중간 레벨 • 6 질문
반복적인 DPO 및 온라인 선호도 조정 퀴즈
반복 및 온라인 선호도 최적화가 언어 모델을 어떻게 개선하는지 이해했는지 확인하세요.
관련 가이드 경로
반복적인 DPO 및 온라인 선호도 조정
질문 1 의 6
정답: 0
기존 RLHF(PPO)에서 요구하는 것 중 DPO가 피하는 것은 무엇입니까?
힌트가 필요하신가요?
모든 훈련 데이터
별도의 명시적 보상 모델 학습
신경망 사용
전적으로 인간의 선호