GHID tehnic

Optimizare relativă a politicii de grup

Group Relative Policy Optimization (GRPO) este o metodă de învățare-întărire pentru reglarea fină a modelelor de limbaj care judecă fiecare răspuns în raport cu un grup de răspunsuri frați la același prompt, eliminând rețeaua de valori separată utilizată de PPO.

Prezentare generală

Group Relative Policy Optimization (GRPO) este o metodă de învățare-întărire pentru reglarea fină a modelelor de limbaj care judecă fiecare răspuns în raport cu un grup de răspunsuri frați la același prompt, eliminând rețeaua de valori separată utilizată de PPO. A devenit celebru ca trucul de bază de antrenament din spatele modelelor de raționament ale DeepSeek.

Optimizarea politică relativă a grupului este un bloc tehnic care afectează calitatea modelului, costul infrastructurii, latența și fiabilitatea la scară.

Deep Dive

GRPO este o variantă de învățare de consolidare a gradului de politici, concepută pentru a face reglarea fină RL a modelelor de limbă mari mai ieftină și mai stabilă. PPO standard are nevoie de un „critic” învățat (model de valoare), aproximativ la fel de mare ca politica în sine, pentru a estima cât de bun este fiecare token. GRPO înlătură complet acel critic. Pentru fiecare solicitare eșantionează un grup de completări (să zicem 8-64), le punctează pe toate cu un semnal de recompensă și apoi calculează avantajul fiecărei finalizări prin standardizarea recompensei față de media și deviația standard a grupului. Răspunsurile peste medie sunt întărite, iar cele sub medie sunt suprimate. Un termen de divergență KL menține modelul aproape de o politică de referință. Introdus de DeepSeek, a alimentat DeepSeekMath și modelele de raționament DeepSeek-R1.

Perspectivă tehnică

Ideea cheie este înlocuirea valorii de referință a PPO cu o linie de bază a grupului Monte Carlo. Pentru un grup de rezultate cu recompense r_i, fiecare avantaj este A_i = (r_i - mean(r)) / std(r). Acest scor normalizat înmulțește raportul de probabilitate tăiat, exact ca în PPO, iar o penalizare KL împotriva unui model de referință înghețat reduce deriva. Deoarece niciun critic nu este instruit, memoria și calculul se înjumătățesc aproximativ, iar normalizarea per-prompt oferă avantaje scalate în mod natural, cu variații reduse.

Stăpânirea optimizării politicilor relative de grup

Group Relative Policy Optimization (GRPO) este o metodă de învățare-întărire pentru reglarea fină a modelelor de limbaj care judecă fiecare răspuns în raport cu un grup de răspunsuri frați la același prompt, eliminând rețeaua de valori separată utilizată de PPO. A devenit celebru ca trucul de bază de antrenament din spatele modelelor de raționament ale DeepSeek. Optimizarea politică relativă a grupului este un bloc tehnic care afectează calitatea modelului, costul infrastructurii, latența și fiabilitatea la scară. Pentru a construi o înțelegere profundă, tratați Optimizarea Politicii Relative de Grup ca un model de operare, nu o singură caracteristică: definiți rezultatele dorite, clarificați ipotezele și separați ceea ce poate face sistemul în mod fiabil de ceea ce necesită încă o judecată expertă.

În practică, echipele puternice care utilizează Optimizarea politicilor relative ale grupului optimizează opțiunile de arhitectură, date și infrastructură în raport cu fiabilitatea și costul. Aceștia documentează criteriile de succes explicite, testează în funcție de date și fluxuri de lucru realiste și repetă pe baza modelelor de eșec observate, mai degrabă decât a câștigurilor de referință unice. Aici înțelegerea teoretică se transformă în capacitate durabilă pentru produse, politici și operațiuni.

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile. În același timp, optimizarea unui benchmark poate ascunde slăbiciuni mai largi ale sistemului. Cea mai rezistentă abordare este combinarea vitezei de experimentare cu disciplina de guvernare: desfășurați pilot, capturați dovezi, publicați jurnalele de decizie și actualizați continuu măsurile de protecție pe măsură ce comportamentul modelului, așteptările utilizatorilor și cerințele de reglementare evoluează.

Impact strategic

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile.

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Educația tehnică ajută echipele să aleagă stiva potrivită, nu doar cea mai nouă.

Educația tehnică ajută echipele să aleagă stiva potrivită, nu doar cea mai nouă. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Opțiuni de inginerie mai bune reduc incidentele de fiabilitate în producție.

Opțiuni de inginerie mai bune reduc incidentele de fiabilitate în producție. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Viitorul optimizării politicilor relative de grup

GRPO a devenit rapid o rețetă implicită pentru formarea modelelor de raționament deschis, iar laboratoarele iterează pe punctele sale slabe. Cercetătorii explorează remedieri pentru prejudecățile legate de lungime și dificultate (cum ar fi Dr. GRPO), normalizarea la nivel de simbol, mai degrabă decât la nivel de secvență, și elimină sau remodelează termenul KL. Așteptați-vă la o integrare mai strânsă cu recompense verificabile (matematice, cod, utilizarea instrumentelor), o mai bună gestionare a semnalelor rare și hibrizi care combină liniile de bază ale grupului cu critici ușoare pentru sarcini agentice, cu mai mulți pași.

Implementare în lumea reală

Antrenamentul DeepSeek-R1 și DeepSeekMath pentru a produce raționament în lanț lung de gândire folosind recompense de corectitudine bazate pe reguli pentru probleme de matematică

Reglarea fină a modelelor de generare de cod în care fiecare soluție eșantionată este punctată dacă trece testele unitare, iar grupul este normalizat pentru a alege câștigătorii

Conducte RLHF cu sursă deschisă (de exemplu, în bibliotecile TRL și verl) care utilizează GRPO pentru a alinia modelele de chat fără a plăti pentru o rețea de valoare separată

Îmbunătățirea comportamentului de urmărire a instrucțiunilor sau de siguranță prin eșantionarea mai multor răspunsuri pentru fiecare prompt și recompensând pe cele pe care un model de recompensă le apreciază cel mai mult în comparație cu colegii lor

Modele de implementare

Optimizarea relativă a politicii de grup în practică

Antrenarea DeepSeek-R1 și DeepSeekMath pentru a produce raționament lung în lanț de gândire folosind recompense de corectitudine bazate pe reguli pentru probleme de matematică.

Antrenarea DeepSeek-R1 și DeepSeekMath pentru a produce un lung lanț de gândire folosind recompense de corectitudine bazate pe reguli pentru probleme de matematică.

Optimizarea relativă a politicii de grup în practică

Reglarea fină a modelelor de generare de cod în care fiecare soluție eșantionată este punctată dacă trece testele unitare, iar grupul este normalizat pentru a alege câștigătorii.

Reglarea fină a modelelor de generare de cod în care fiecare soluție eșantionată este evaluată în funcție de dacă trece testele unitare, iar grupul este normalizat pentru a alege câștigătorii.

Optimizarea relativă a politicii de grup în practică

Conducte RLHF cu sursă deschisă (de exemplu, în bibliotecile TRL și verl) care utilizează GRPO pentru a alinia modelele de chat fără a plăti pentru o rețea de valoare separată.

Conducte RLHF open-source (de exemplu, în bibliotecile TRL și verl) care utilizează GRPO pentru a alinia modelele de chat fără a plăti pentru o rețea de valoare separată.

Optimizarea relativă a politicii de grup în practică

Îmbunătățirea comportamentului de urmărire a instrucțiunilor sau de siguranță prin eșantionarea mai multor răspunsuri pentru fiecare prompt și recompensând pe cele pe care un model de recompensă le apreciază cel mai mult în comparație cu colegii lor.

Îmbunătățirea comportamentului de urmărire a instrucțiunilor sau de siguranță prin eșantionarea mai multor răspunsuri pentru fiecare prompt și recompensând pe cele pe care un model de recompensă le are cel mai mult în comparație cu colegii lor.

Riscuri și balustrade

!

Optimizarea unui punct de referință poate ascunde slăbiciunile mai largi ale sistemului.

!

Costurile de infrastructură și întreținere sunt adesea subestimate.

!

Lacunele de securitate și observabilitate pot crește pe măsură ce sistemele devin mai complexe.

Foaia de parcurs de implementare

1

Definiți obiectivele de latență, calitate și cost înainte de implementare.

Definiți obiectivele de latență, calitate și cost înainte de implementare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

2

Benchmark în condiții realiste de încărcare și date.

Benchmark în condiții realiste de încărcare și date. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

3

Monitorizarea instrumentelor pentru erori, deriva și impactul utilizatorului.

Monitorizarea instrumentelor pentru erori, deriva și impactul utilizatorului. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

4

Pregătiți căile de retragere și răspuns la incident înainte de scalare.

Pregătiți căile de retragere și răspuns la incident înainte de scalare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Continuați să explorați