← 모든 퀴즈로 돌아가기가이드 연계 퀴즈 • 하드 레벨 • 6 질문

그룹 상대 정책 최적화 퀴즈

GRPO가 강화 학습을 통해 언어 모델을 훈련하는 방법에 대한 이해도를 테스트하세요.

GRPO는 PPO의 어떤 주요 구성 요소를 제거합니까?