← 모든 퀴즈로 돌아가기가이드 연계 퀴즈 • 하드 레벨 • 6 질문

인간 피드백 퀴즈를 통한 강화 학습

RLHF 이면의 단계와 메커니즘에 대한 이해도를 테스트해 보세요.

언어 모델에 대한 RLHF의 주요 목적은 무엇입니까?