학습
뉴스
도구
Jobs
용어집
인증
퀴즈
미션
지원
English
Search
⌘K
AI 도구 제출
기부
English
Search
⌘K
학습
AI Guides & Foundations
뉴스
Latest AI Developments
도구
Top AI Directory
Jobs
AI Hiring Board
용어집
AI Terms Dictionary
인증
Get Your AI Certificate
퀴즈
Interactive AI Assessments
미션
Why We Exist
지원
Help and Contact
AI 도구 제출
기부
English
← 모든 퀴즈로 돌아가기
가이드 연계 퀴즈 • 중간 레벨 • 6 질문
직접 선호도 최적화 퀴즈
Direct Preference Optimization의 작동 방식과 정렬을 단순화하는 이유에 대한 이해를 테스트해 보세요.
관련 가이드 경로
직접 선호도 최적화
질문 1 의 6
정답: 0
기존 RLHF에 비해 DPO는 무엇을 제거합니까?
힌트가 필요하신가요?
인간의 선호도 데이터의 필요성
별도의 보상 모델 및 강화 학습 루프
기본 사전 학습된 언어 모델
로그 확률의 사용