학습
뉴스
도구
Jobs
용어집
인증
퀴즈
미션
지원
English
Search
⌘K
AI 도구 제출
기부
English
Search
⌘K
학습
AI Guides & Foundations
뉴스
Latest AI Developments
도구
Top AI Directory
Jobs
AI Hiring Board
용어집
AI Terms Dictionary
인증
Get Your AI Certificate
퀴즈
Interactive AI Assessments
미션
Why We Exist
지원
Help and Contact
AI 도구 제출
기부
English
← 모든 퀴즈로 돌아가기
가이드 연계 퀴즈 • 하드 레벨 • 6 질문
그룹 상대 정책 최적화 퀴즈
GRPO가 강화 학습을 통해 언어 모델을 훈련하는 방법에 대한 이해도를 테스트하세요.
관련 가이드 경로
그룹 관련 정책 최적화
질문 1 의 6
정답: 0
GRPO는 PPO의 어떤 주요 구성 요소를 제거합니까?
힌트가 필요하신가요?
보상 모델
별도의 학습된 가치(비평가) 네트워크
학습 중인 정책 네트워크
KL-발산 페널티