← すべてのクイズに戻るガイド連動クイズ • 中レベル • 6 質問

近接ポリシー最適化クイズ

PPO が強化学習をどのように安定化させるか、および RLHF におけるその役割についての理解をテストします。

関連するガイドパス

近接ポリシーの最適化

質問 1 の 6正解: 0

PPO の「クリッピング」は主にどのような問題に対処しますか?