تمام کوئزز پر واپس جائیں۔گائیڈ سے منسلک کوئزدرمیانہ سطح6 سوالات

تکراری ڈی پی او اور آن لائن ترجیحی ٹیوننگ کوئز

اپنی سمجھ کی جانچ پڑتال کریں کہ کس طرح تکراری اور آن لائن ترجیحی اصلاح زبان کے ماڈل کو بہتر کرتی ہے۔

سوال 1 کی 6درست: 0

ڈی پی او روایتی RLHF (PPO) کی ضرورت سے کیا گریز کرتا ہے؟