모든 퀴즈로 돌아가기가이드 연계 퀴즈하드 레벨6 질문

그룹 상대 정책 최적화 퀴즈

GRPO가 강화 학습을 통해 언어 모델을 훈련하는 방법에 대한 이해도를 테스트하세요.

관련 가이드 경로

질문 1 6정답: 0

GRPO는 PPO의 어떤 주요 구성 요소를 제거합니까?