GHID de fundamente

Normalizarea recompenselor grupate în RLHF

Normalizarea recompenselor grupate standardizează recompensele unui model într-un lot de răspunsuri la același prompt, transformând scorurile zgomotoase într-un semnal de antrenament stabil.

Prezentare generală

Normalizarea recompenselor grupate standardizează recompensele unui model într-un lot de răspunsuri la același prompt, transformând scorurile zgomotoase într-un semnal de antrenament stabil. Este trucul principal din spatele GRPO, algoritmul care alimentează multe modele de raționament moderne.

Normalizarea recompenselor grupate în RLHF se află în setul de instrumente de bază AI. Când îl înțelegi, alte subiecte AI devin mai ușor de evaluat și comparat.

Deep Dive

În învățarea prin întărire din feedbackul uman (RLHF), un model generează răspunsuri și un model de recompensă le punctează, dar recompensele brute sunt zgomotoase și variază foarte mult în funcție de solicitări. Normalizarea recompensei grupate rezolvă acest lucru prin eșantionarea unui grup de mai multe răspunsuri la același prompt, apoi normalizând fiecare recompensă prin scăderea mediei grupului și împărțirea la abaterea standard a grupului. Acest scor z devine avantaj. Abordarea este esențială pentru Group Relative Policy Optimization (GRPO), introdusă de DeepSeek, care a alimentat raționamentul DeepSeek-R1. În mod esențial, GRPO elimină rețeaua de valori separată (critică) utilizată de PPO, deoarece media grupului servește ca linie de bază. Acest lucru face antrenamentul mai simplu, mai ieftin și mai eficient din punct de vedere al memoriei, păstrând în același timp semnalul de gradient bine scalat.

Perspectivă tehnică

Pentru un grup de ieșiri cu recompense r_1...r_G, avantajul este A_i = (r_i − mean(r)) / std(r). Răspunsurile mai bune decât media grupului lor obțin un avantaj pozitiv și sunt consolidate; cele mai proaste decât media sunt împinse în jos. Deoarece comparația este relativă într-o scară de recompensă promptă, absolută și dificultatea pe solicitare se anulează, reducând variația. GRPO păstrează obiectivul tăiat al PPO și penalizarea KL împotriva unei politici de referință pentru a preveni deplasarea prea departe a modelului.

Stăpânirea normalizării recompenselor grupate în RLHF

Normalizarea recompenselor grupate standardizează recompensele unui model într-un lot de răspunsuri la același prompt, transformând scorurile zgomotoase într-un semnal de antrenament stabil. Este trucul principal din spatele GRPO, algoritmul care alimentează multe modele de raționament moderne. Normalizarea recompenselor grupate în RLHF se află în setul de instrumente de bază AI. Când îl înțelegi, alte subiecte AI devin mai ușor de evaluat și comparat. Pentru a construi o înțelegere profundă, tratați Normalizarea recompensei grupate în RLHF ca un model de operare, nu o singură caracteristică: definiți rezultatele dorite, clarificați ipotezele și separați ceea ce poate face sistemul în mod fiabil de ceea ce necesită încă o judecată expertă.

În practică, echipele puternice care utilizează normalizarea recompenselor grupate în RLHF construiesc mai întâi modele conceptuale puternice, apoi mapează acele modele la constrângerile reale de producție. Aceștia documentează criteriile de succes explicite, testează în funcție de date și fluxuri de lucru realiste și repetă pe baza modelelor de eșec observate, mai degrabă decât a câștigurilor de referință unice. Aici înțelegerea teoretică se transformă în capacitate durabilă pentru produse, politici și operațiuni.

Vă ajută să separați afirmațiile tehnice clare de limbajul de marketing. În același timp, echipe diferite pot folosi același termen în mod diferit, așa că definiți domeniul de aplicare din timp. Cea mai rezistentă abordare este combinarea vitezei de experimentare cu disciplina de guvernare: desfășurați pilot, capturați dovezi, publicați jurnalele de decizie și actualizați continuu măsurile de protecție pe măsură ce comportamentul modelului, așteptările utilizatorilor și cerințele de reglementare evoluează.

Impact strategic

Vă ajută să separați afirmațiile tehnice clare de limbajul de marketing.

Vă ajută să separați afirmațiile tehnice clare de limbajul de marketing. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Puteți pune întrebări de implementare mai bune înainte de a cheltui bani sau timp.

Puteți pune întrebări de implementare mai bune înainte de a cheltui bani sau timp. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Echipele cu înțelegere comună iau decizii mai bune despre produse, politici și învățare.

Echipele cu înțelegere comună iau decizii mai bune despre produse, politici și învățare. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Viitorul normalizării recompenselor grupate în RLHF

Normalizarea grupată alimentează boom-ul modelelor de raționament, în care modelele învață din recompense verificabile, cum ar fi răspunsuri corecte la matematică, fără un critic învățat. Cercetările o perfecționează: dezbateri cu privire la împărțirea prin abaterea standard, gestionarea grupurilor complet corecte sau greșite care produc avantaj zero și mărirea dimensiunii grupului. Așteptați-vă ca metodele grupate, fără critici, să se răspândească la utilizarea instrumentelor agentice și la generarea de coduri, unde verificatoarele automate furnizează semnale de recompensă abundente și ieftine.

Implementare în lumea reală

Antrenarea unui model de raționament matematic prin eșantionarea a 16 soluții per problemă și recompensarea celor peste corectitudinea medie a grupului.

Îmbunătățiți utilitatea unui chatbot prin normalizarea scorurilor modelului de recompensă în mai multe răspunsuri ale candidaților la fiecare prompt de utilizator.

Îmbunătățirea unui asistent de codare în care fiecare soluție eșantionată este notată dacă trece testele unitare, apoi normalizată în cadrul grupului.

Reducerea memoriei GPU într-o conductă RLHF prin renunțarea la rețeaua critică PPO și folosind în schimb media grupului ca linie de bază.

Modele de implementare

Normalizarea recompenselor grupate în RLHF în practică

Antrenarea unui model de raționament matematic prin eșantionarea a 16 soluții per problemă și recompensarea celor peste corectitudinea medie a grupului.

Antrenarea unui model de raționament matematic prin eșantionarea a 16 soluții pentru fiecare problemă și recompensând pe cele peste corectitudinea medie a grupului. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Normalizarea recompenselor grupate în RLHF în practică

Îmbunătățiți utilitatea unui chatbot prin normalizarea scorurilor modelului de recompensă în mai multe răspunsuri ale candidaților la fiecare prompt de utilizator.

Reglarea fină a utilității unui chatbot prin normalizarea scorurilor modelului de recompensă în mai multe răspunsuri ale candidaților la fiecare solicitare a utilizatorului.

Normalizarea recompenselor grupate în RLHF în practică

Îmbunătățirea unui asistent de codare în care fiecare soluție eșantionată este notată dacă trece testele unitare, apoi normalizată în cadrul grupului.

Îmbunătățirea unui asistent de codare în care fiecare soluție eșantionată este punctată dacă trece testele unitare, apoi normalizată în cadrul grupului Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile de eroare în timp.

Normalizarea recompenselor grupate în RLHF în practică

Reducerea memoriei GPU într-o conductă RLHF prin renunțarea la rețeaua critică PPO și folosind în schimb media grupului ca linie de bază.

Reducerea memoriei GPU într-o conductă RLHF prin renunțarea la rețeaua critică PPO și utilizarea grupului ca linie de bază, în schimb, echipele obțin rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile de eroare în timp.

Riscuri și balustrade

!

Echipe diferite pot folosi același termen în mod diferit, așa că definiți domeniul de aplicare din timp.

!

Benchmark-urile pot părea puternice, în timp ce performanța în lumea reală este neuniformă.

!

Ignorarea calității datelor și a planurilor de evaluare generează adesea rezultate fragile.

Foaia de parcurs de implementare

1

Începeți cu o definiție simplă a rezultatului de care aveți nevoie.

Începeți cu o definiție simplă a rezultatului de care aveți nevoie. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

2

Alegeți o măsură de succes și o condiție de eșec înainte de testare.

Alegeți o măsură de succes și o condiție de eșec înainte de testare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

3

Rulați un pilot mic cu date reprezentative, nu un set demonstrativ bine definit.

Rulați un pilot mic cu date reprezentative, nu un set demonstrativ bine definit. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

4

Document în care normalizarea recompenselor grupate în RLHF ajută și unde metodele mai simple sunt mai bune.

Document în care normalizarea recompenselor grupate în RLHF ajută și unde metodele mai simple sunt mai bune. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Continuați să explorați