← العودة إلى جميع الاختباراتاختبار مرتبط بالدليل • متوسط المستوى • 6 أسئلة

اختبار تحسين السياسة القريبة

اختبر فهمك لكيفية استقرار PPO للتعلم المعزز ودوره في RLHF.

مسارات الدليل ذات الصلة

تحسين السياسة القريبة

سؤال 1 من 6الصحيح: 0

ما هي المشكلة التي يعالجها "قص" PPO بشكل أساسي؟