모든 퀴즈로 돌아가기가이드 연계 퀴즈중간 레벨6 질문

근접 정책 최적화 퀴즈

PPO가 강화 학습을 안정화하는 방법과 RLHF에서의 역할에 대한 이해를 테스트하세요.

관련 가이드 경로

질문 1 6정답: 0

PPO의 '클리핑'은 주로 어떤 문제를 해결합니까?