모든 퀴즈로 돌아가기가이드 연계 퀴즈중간 레벨6 질문

직접 선호도 최적화 퀴즈

Direct Preference Optimization의 작동 방식과 정렬을 단순화하는 이유에 대한 이해를 테스트해 보세요.

관련 가이드 경로

질문 1 6정답: 0

기존 RLHF에 비해 DPO는 무엇을 제거합니까?