← 모든 퀴즈로 돌아가기가이드 연계 퀴즈 • 중간 레벨 • 6 질문

직접 선호도 최적화 퀴즈

Direct Preference Optimization의 작동 방식과 정렬을 단순화하는 이유에 대한 이해를 테스트해 보세요.

기존 RLHF에 비해 DPO는 무엇을 제거합니까?