Panoramica
Group Relative Policy Optimization (GRPO) è un metodo di apprendimento per rinforzo per mettere a punto i modelli linguistici che giudica ciascuna risposta rispetto a un gruppo di risposte di pari livello allo stesso prompt, eliminando la rete di valori separata utilizzata da PPO. È diventato famoso come il trucco di allenamento fondamentale dietro i modelli di ragionamento di DeepSeek.
L'ottimizzazione delle policy relative di gruppo è un elemento tecnico che influisce sulla qualità del modello, sui costi dell'infrastruttura, sulla latenza e sull'affidabilità su larga scala.
Immersione profonda
GRPO è una variante dell'apprendimento per rinforzo del gradiente politico progettato per rendere la messa a punto RL di modelli linguistici di grandi dimensioni più economica e più stabile. Il PPO standard ha bisogno di un "critico" esperto (modello di valore), grande all'incirca quanto la politica stessa, per stimare la validità di ciascun token. Il GRPO rimuove completamente questa critica. Per ogni richiesta campiona un gruppo di completamenti (ad esempio 8-64), assegna a tutti un punteggio con un segnale di ricompensa e quindi calcola il vantaggio di ciascun completamento standardizzando la sua ricompensa rispetto alla media del gruppo e alla deviazione standard. Le risposte superiori alla media vengono rafforzate e quelle inferiori alla media vengono soppresse. Un termine di divergenza KL mantiene il modello vicino a una politica di riferimento. Introdotto da DeepSeek, ha alimentato DeepSeekMath e i modelli di ragionamento DeepSeek-R1.
Approfondimento tecnico
L'idea chiave è sostituire la linea di base del valore appreso del PPO con una linea di base del gruppo Monte Carlo. Per un gruppo di output con ricompense r_i, ciascun vantaggio è A_i = (r_i - media(r)) / std(r). Quel punteggio normalizzato moltiplica il rapporto di probabilità tagliato, esattamente come nel PPO, e una penalità KL rispetto a un modello di riferimento congelato limita la deriva. Poiché nessun critico è addestrato, la memoria e il calcolo si dimezzano all'incirca e la normalizzazione per prompt offre vantaggi naturalmente scalati e con bassa varianza.
Padroneggiare l'ottimizzazione della politica relativa del gruppo
Group Relative Policy Optimization (GRPO) è un metodo di apprendimento per rinforzo per mettere a punto i modelli linguistici che giudica ciascuna risposta rispetto a un gruppo di risposte di pari livello allo stesso prompt, eliminando la rete di valori separata utilizzata da PPO. È diventato famoso come il trucco di allenamento fondamentale dietro i modelli di ragionamento di DeepSeek. L'ottimizzazione delle policy relative di gruppo è un elemento tecnico che influisce sulla qualità del modello, sui costi dell'infrastruttura, sulla latenza e sull'affidabilità su vasta scala. Per creare una comprensione profonda, tratta la Group Relative Policy Optimization come un modello operativo, non come una singola caratteristica: definisci i risultati desiderati, chiarisci le ipotesi e separa ciò che il sistema può fare in modo affidabile da ciò che richiede ancora il giudizio di esperti.
In pratica, i team forti che utilizzano la Group Relative Policy Optimization ottimizzano le scelte di architettura, dati e infrastruttura rispetto all'affidabilità e ai costi. Documentano criteri di successo espliciti, effettuano test rispetto a dati e flussi di lavoro realistici e ripetono in base a modelli di fallimento osservati piuttosto che a successi benchmark una tantum. È qui che la comprensione teorica si trasforma in capacità duratura in termini di prodotto, politica e operazioni.
Le decisioni relative all'architettura determinano prestazioni e costi operativi per anni. Allo stesso tempo, l’ottimizzazione di un benchmark può nascondere debolezze di sistema più ampie. L’approccio più resiliente consiste nel combinare la velocità di sperimentazione con la disciplina della governance: eseguire progetti pilota, acquisire prove, pubblicare registri decisionali e aggiornare continuamente le misure di salvaguardia man mano che il comportamento del modello, le aspettative degli utenti e i requisiti normativi evolvono.
Impatto strategico
Le decisioni relative all'architettura determinano prestazioni e costi operativi per anni.
Le decisioni relative all'architettura determinano prestazioni e costi operativi per anni. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.
La formazione tecnica aiuta i team a scegliere lo stack giusto, non solo quello più nuovo.
La formazione tecnica aiuta i team a scegliere lo stack giusto, non solo quello più nuovo. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.
Migliori scelte ingegneristiche riducono gli incidenti legati all’affidabilità nella produzione.
Migliori scelte ingegneristiche riducono gli incidenti legati all’affidabilità nella produzione. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.
Implementazione nel mondo reale
Addestrare DeepSeek-R1 e DeepSeekMath per produrre ragionamenti basati su una lunga catena di pensiero utilizzando premi per la correttezza basati su regole su problemi di matematica
Ottimizzazione dei modelli di generazione del codice in cui a ciascuna soluzione campionata viene assegnato un punteggio in base al superamento dei test unitari e il gruppo viene normalizzato per scegliere i vincitori
Pipeline RLHF open source (ad esempio, nelle librerie TRL e verl) che utilizzano GRPO per allineare i modelli di chat senza pagare per una rete di valore separata
Migliorare il rispetto delle istruzioni o il comportamento di sicurezza campionando diverse risposte per prompt e premiando quelle che un modello di ricompensa valuta più alto rispetto ai loro pari
Modelli di implementazione
Ottimizzazione della politica relativa di gruppo nella pratica
Addestramento di DeepSeek-R1 e DeepSeekMath per produrre ragionamenti basati su una lunga catena di pensiero utilizzando premi per la correttezza basati su regole su problemi di matematica.
Addestrare DeepSeek-R1 e DeepSeekMath per produrre ragionamenti basati su una lunga catena di pensiero utilizzando premi di correttezza basati su regole su problemi di matematica. I team di solito ottengono risultati migliori quando definiscono in anticipo soglie di qualità, mantengono un percorso di escalation umana per i casi limite e monitorano sia i guadagni di produttività che i costi di errore nel tempo.
Ottimizzazione della politica relativa di gruppo nella pratica
Ottimizzazione dei modelli di generazione del codice in cui a ciascuna soluzione campionata viene assegnato un punteggio in base al superamento dei test unitari e il gruppo viene normalizzato per scegliere i vincitori.
Messa a punto di modelli di generazione del codice in cui a ciascuna soluzione campionata viene assegnato un punteggio in base al superamento dei test unitari e il gruppo viene normalizzato per scegliere i vincitori. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e monitorano sia i guadagni di produttività che i costi di errore nel tempo.
Ottimizzazione della politica relativa di gruppo nella pratica
Pipeline RLHF open source (ad esempio, nelle librerie TRL e verl) che utilizzano GRPO per allineare i modelli di chat senza pagare per una rete di valore separata.
Pipeline RLHF open source (ad esempio, nelle librerie TRL e verl) che utilizzano GRPO per allineare i modelli di chat senza pagare per una rete di valore separata. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e tengono traccia sia dei guadagni di produttività che dei costi di errore nel tempo.
Ottimizzazione della politica relativa di gruppo nella pratica
Migliorare il rispetto delle istruzioni o il comportamento di sicurezza campionando diverse risposte per prompt e premiando quelle che un modello di ricompensa valuta più alte rispetto ai loro pari.
Migliorare il rispetto delle istruzioni o il comportamento di sicurezza campionando diverse risposte per prompt e premiando quelle che un modello di ricompensa valuta più alte rispetto ai loro pari. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e monitorano sia i guadagni di produttività che i costi di errore nel tempo.
Rischi e guardrail
L'ottimizzazione di un benchmark può nascondere debolezze di sistema più ampie.
I costi delle infrastrutture e della manutenzione sono spesso sottostimati.
Le lacune in termini di sicurezza e osservabilità possono aumentare man mano che i sistemi diventano più complessi.
Tabella di marcia per l'implementazione
Definire obiettivi di latenza, qualità e costi prima dell'implementazione.
Definire obiettivi di latenza, qualità e costi prima dell'implementazione. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.
Benchmark in condizioni di carico e dati realistiche.
Benchmark in condizioni di carico e dati realistiche. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.
Monitoraggio dello strumento per errori, deriva e impatto sull'utente.
Monitoraggio dello strumento per errori, deriva e impatto sull'utente. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.
Preparare percorsi di rollback e risposta agli incidenti prima della scalabilità.
Preparare percorsi di rollback e risposta agli incidenti prima della scalabilità. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.