GUIDA ALL'AI linguistica

Ottimizzazione diretta delle preferenze

L'ottimizzazione delle preferenze dirette (DPO) è un modo per allineare i modelli linguistici alle preferenze umane senza addestrare un modello di ricompensa separato o eseguire l'apprendimento per rinforzo.

Panoramica

L'ottimizzazione delle preferenze dirette (DPO) è un modo per allineare i modelli linguistici alle preferenze umane senza addestrare un modello di ricompensa separato o eseguire l'apprendimento per rinforzo. Comprime una complessa pipeline a più fasi in un'unica perdita di addestramento stabile.

L'ottimizzazione delle preferenze dirette fa parte dello stack di intelligenza artificiale del linguaggio utilizzato per leggere, generare, classificare e trasformare testo e parlato su larga scala.

Immersione profonda

Il DPO, introdotto da Rafailov e colleghi a Stanford nel 2023, ripensa il modo in cui insegniamo a un modello ciò che le persone preferiscono. L’approccio tradizionale (RLHF) addestra un modello di ricompensa sui confronti umani, quindi utilizza l’apprendimento per rinforzo per massimizzare tale ricompensa. L'intuizione chiave del DPO è matematica: la politica ottimale nell'ambito di tale obiettivo RLHF ha una relazione in forma chiusa con la ricompensa, quindi è possibile riorganizzare le equazioni e ottimizzare il modello linguistico direttamente sulle coppie di preferenze. Gli dai un suggerimento, una risposta "scelta" (preferita) e una risposta "rifiutata", e una semplice perdita in stile classificazione spinge il modello a rendere la risposta scelta relativamente più probabile. Nessun modello di ricompensa, nessun ciclo di campionamento, nessun hacking di ricompensa. È molto più semplice e più stabile da eseguire.

Approfondimento tecnico

Il DPO utilizza una perdita di entropia incrociata binaria rispetto alle coppie di preferenze. Aumenta il rapporto di probabilità logaritmica della risposta scelta rispetto a quella rifiutata, ciascuna misurata rispetto a un modello di riferimento congelato (di solito il punto di partenza ottimizzato e supervisionato). Un parametro di temperatura beta controlla quanto la politica può allontanarsi da quel riferimento, applicando implicitamente il vincolo KL che RLHF applica esplicitamente. La ricompensa non viene mai materializzata; è implicito nelle probabilità logaritmiche proprie della politica.

Padroneggiare l'ottimizzazione diretta delle preferenze

L'ottimizzazione delle preferenze dirette (DPO) è un modo per allineare i modelli linguistici alle preferenze umane senza addestrare un modello di ricompensa separato o eseguire l'apprendimento per rinforzo. Comprime una complessa pipeline a più fasi in un'unica perdita di addestramento stabile. L'ottimizzazione delle preferenze dirette fa parte dello stack di intelligenza artificiale del linguaggio utilizzato per leggere, generare, classificare e trasformare testo e parlato su larga scala. Per creare una comprensione profonda, tratta l’ottimizzazione delle preferenze dirette come un modello operativo, non come una singola funzionalità: definisci i risultati desiderati, chiarisci le ipotesi e separa ciò che il sistema può fare in modo affidabile da ciò che richiede ancora il giudizio di esperti.

In pratica, i team forti che utilizzano l'ottimizzazione delle preferenze dirette progettano cicli di richieste, recupero e revisione come un unico sistema di comunicazione integrato. Documentano criteri di successo espliciti, effettuano test rispetto a dati e flussi di lavoro realistici e ripetono in base a modelli di fallimento osservati piuttosto che a successi benchmark una tantum. È qui che la comprensione teorica si trasforma in capacità duratura in termini di prodotto, politica e operazioni.

I flussi di lavoro linguistici possono muoversi più velocemente senza sacrificare la coerenza. Allo stesso tempo, i fatti allucinati possono tranquillamente entrare nei rapporti, nei flussi di supporto o nei risultati della ricerca. L’approccio più resiliente consiste nel combinare la velocità di sperimentazione con la disciplina della governance: eseguire progetti pilota, acquisire prove, pubblicare registri decisionali e aggiornare continuamente le misure di salvaguardia man mano che il comportamento del modello, le aspettative degli utenti e i requisiti normativi evolvono.

Impatto strategico

I flussi di lavoro linguistici possono muoversi più velocemente senza sacrificare la coerenza.

I flussi di lavoro linguistici possono muoversi più velocemente senza sacrificare la coerenza. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.

Espande l'accesso attraverso lingue e stili di comunicazione.

Espande l'accesso attraverso lingue e stili di comunicazione. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.

I team possono dedicare più tempo al giudizio mentre l'automazione gestisce la ripetizione.

I team possono dedicare più tempo al giudizio mentre l'automazione gestisce la ripetizione. Nelle implementazioni di alta qualità, ciò si traduce in regole operative misurabili, limiti di proprietà e rituali di revisione ricorrenti in modo che i team possano aumentare la fiducia invece di aumentare l’ambiguità.

Il futuro dell'ottimizzazione delle preferenze dirette

Il DPO è diventato un metodo di allineamento predefinito perché è economico e riproducibile e ha generato una famiglia di varianti: l’IPO corregge l’overfitting su preferenze quasi deterministiche, KTO apprende da singole etichette buone o cattive invece che da coppie e ORPO ripiega l’apprendimento delle preferenze in una messa a punto senza modello di riferimento. Si prevede un lavoro continuo sulla combinazione del DPO con i dati sulla policy e il debiasing su lunghezza/qualità, riducendo il divario rimanente con l’RLHF completamente online.

Implementazione nel mondo reale

Messa a punto di modelli di chat a peso aperto come Zephyr e molti derivati Llama e Mistral, allineati con DPO sui set di dati delle preferenze

Ridurre gli output dannosi o inutili utilizzando coppie in cui la risposta sicura e utile viene "scelta" rispetto a quella problematica

Insegnare a un assistente di codifica a preferire soluzioni corrette e ben documentate rispetto a quelle difettose utilizzando confronti valutati dagli sviluppatori

Ottimizzare lo stile di riepilogo in modo che i modelli preferiscano riassunti concisi e fedeli rispetto a quelli verbosi o allucinati

Modelli di implementazione

Ottimizzazione delle preferenze dirette nella pratica

Messa a punto di modelli di chat a peso aperto come Zephyr e molti derivati Llama e Mistral, che erano allineati con DPO sui set di dati delle preferenze.

Messa a punto di modelli di chat open-weight come Zephyr e molti derivati ​​Llama e Mistral, che sono stati allineati con DPO sui set di dati delle preferenze. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umana per i casi limite e tengono traccia sia dei guadagni di produttività che dei costi di errore nel tempo.

Ottimizzazione delle preferenze dirette nella pratica

Ridurre gli output dannosi o inutili utilizzando coppie in cui la risposta sicura e utile viene "scelta" rispetto a quella problematica.

Ridurre gli output dannosi o inutili utilizzando coppie in cui la risposta sicura e utile viene "scelta" rispetto a quella problematica. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e tengono traccia sia dei guadagni di produttività che dei costi di errore nel tempo.

Ottimizzazione delle preferenze dirette nella pratica

Insegnare a un assistente di codifica a preferire soluzioni corrette e ben documentate rispetto a quelle difettose utilizzando confronti valutati dagli sviluppatori.

Insegnare a un assistente di codifica a preferire soluzioni corrette e ben documentate rispetto a quelle difettose utilizzando confronti valutati dagli sviluppatori. I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e tengono traccia sia dei guadagni di produttività che dei costi di errore nel tempo.

Ottimizzazione delle preferenze dirette nella pratica

Ottimizzare lo stile di riepilogo in modo che i modelli preferiscano riassunti concisi e fedeli rispetto a quelli verbosi o allucinati.

Ottimizzare lo stile di riepilogo in modo che i modelli preferiscano riepiloghi concisi e fedeli rispetto a quelli prolissi o allucinati I team di solito ottengono risultati migliori quando definiscono in anticipo le soglie di qualità, mantengono un percorso di escalation umano per i casi limite e monitorano sia i guadagni di produttività che i costi di errore nel tempo.

Rischi e guardrail

!

Fatti allucinati possono tranquillamente entrare nei rapporti, nei flussi di supporto o nei risultati della ricerca.

!

La sensibilità tempestiva può creare risultati incoerenti tra richieste simili.

!

I dati di testo sensibili potrebbero essere esposti se i controlli di accesso sono deboli.

Tabella di marcia per l'implementazione

1

Definisci il formato di output, il tono e gli standard di qualità prima dell'implementazione.

Definisci il formato di output, il tono e gli standard di qualità prima dell'implementazione. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.

2

Risposte concrete con fonti attendibili ogni volta che la precisione è importante.

Risposte concrete con fonti attendibili ogni volta che la precisione è importante. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.

3

Mantenere un checkpoint di revisione umana per i risultati ad alto rischio.

Mantenere un checkpoint di revisione umana per i risultati ad alto rischio. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.

4

Tieni traccia dei modelli di errore e riqualifica regolarmente le richieste o i flussi di lavoro.

Tieni traccia dei modelli di errore e riqualifica regolarmente le richieste o i flussi di lavoro. Tratta ogni passaggio come una prova: se i criteri non vengono soddisfatti, metti in pausa l'implementazione, colma il divario e solo allora espandi l'utilizzo.

Continua a esplorare