تمام کوئزز پر واپس جائیں۔گائیڈ سے منسلک کوئزسخت سطح6 سوالات

RLHF کوئز میں گروپڈ ریوارڈ نارملائزیشن

گروپڈ ریوارڈ نارملائزیشن اور GRPO الگورتھم کے بارے میں اپنی سمجھ کی جانچ کریں۔

سوال 1 کی 6درست: 0

گروپ شدہ انعام کو معمول پر لانے میں، ہر جواب کے انعام کے مقابلے میں کیا ہے؟