すべてのクイズに戻るガイド連動クイズ レベル6 質問

近接ポリシー最適化クイズ

PPO が強化学習をどのように安定化させるか、および RLHF におけるその役割についての理解をテストします。

関連するガイドパス

質問 1 6正解: 0

PPO の「クリッピング」は主にどのような問題に対処しますか?