모든 퀴즈로 돌아가기가이드 연계 퀴즈중간 레벨6 질문

반복적인 DPO 및 온라인 선호도 조정 퀴즈

반복 및 온라인 선호도 최적화가 언어 모델을 어떻게 개선하는지 이해했는지 확인하세요.

질문 1 6정답: 0

기존 RLHF(PPO)에서 요구하는 것 중 DPO가 피하는 것은 무엇입니까?