تعلّم
الأخبار
الأدوات
Jobs
المصطلحات
الشهادة
اختبارات
المهمة
الدعم
English
Search
⌘K
أضف أداة
تبرع
English
Search
⌘K
تعلّم
AI Guides & Foundations
الأخبار
Latest AI Developments
الأدوات
Top AI Directory
Jobs
AI Hiring Board
المصطلحات
AI Terms Dictionary
الشهادة
Get Your AI Certificate
اختبارات
Interactive AI Assessments
المهمة
Why We Exist
الدعم
Help and Contact
أضف أداة
تبرع
English
← العودة إلى جميع الاختبارات
اختبار مرتبط بالدليل • متوسط المستوى • 6 أسئلة
اختبار تحسين السياسة القريبة
اختبر فهمك لكيفية استقرار PPO للتعلم المعزز ودوره في RLHF.
مسارات الدليل ذات الصلة
تحسين السياسة القريبة
سؤال 1 من 6
الصحيح: 0
ما هي المشكلة التي يعالجها "قص" PPO بشكل أساسي؟
هل تحتاج إلى تلميح؟
بطء تحميل البيانات
تحديثات السياسة الكبيرة جدًا التي تؤدي إلى زعزعة استقرار التدريب
حدود حجم المفردات
استخدام الذاكرة أثناء الاستدلال