모든 퀴즈로 돌아가기가이드 연계 퀴즈하드 레벨6 질문

인간 피드백 퀴즈를 통한 강화 학습

RLHF 이면의 단계와 메커니즘에 대한 이해도를 테스트해 보세요.

질문 1 6정답: 0

언어 모델에 대한 RLHF의 주요 목적은 무엇입니까?