GUIDE IA du langage

Optimisation des politiques proximales

L'optimisation des politiques proximales (PPO) est l'algorithme d'apprentissage par renforcement le plus associé à l'ajustement fin des modèles de langage à partir des commentaires humains.

Aperçu

L'optimisation des politiques proximales (PPO) est l'algorithme d'apprentissage par renforcement le plus associé à l'ajustement fin des modèles de langage à partir des commentaires humains. Il améliore une politique par petites étapes prudentes pour éviter l’instabilité qui sévit dans les méthodes naïves de gradient politique.

L'optimisation des politiques proximales fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle.

Plongée profonde

PPO a été introduit par OpenAI en 2017 et est devenu le cheval de bataille derrière RLHF pour des systèmes comme InstructGPT et ChatGPT. Le principal défi du RL à gradient de politique est qu’une seule mise à jour trop volumineuse peut réduire les performances. Le PPO résout ce problème avec un « objectif de substitution tronqué » : il mesure la probabilité qu'une action soit devenue plus (ou moins) par rapport à l'ancienne politique, multiplie ce rapport par l'avantage (à quel point l'action était meilleure que prévu) et réduit le rapport à une petite plage comme 0,8 à 1,2. Cela limite jusqu'où la politique peut évoluer par mise à jour, gardant l'apprentissage stable tout en permettant une amélioration constante. Dans le modèle de langage RLHF, « l'action » génère un jeton ou une réponse, la récompense vient d'un modèle de récompense et une pénalité de divergence KL empêche le modèle de trop s'éloigner de son comportement d'origine.

Aperçu technique

PPO maximise un objectif tronqué : min(ratio * avantage, clip(ratio, 1-eps, 1+eps) * avantage), où ratio est la probabilité d'action nouvelle par rapport à l'ancienne. Les avantages sont généralement estimés à l’aide d’une estimation généralisée des avantages et d’un réseau de valeurs apprises (critiques). Dans RLHF, la récompense totale combine le score du modèle de récompense avec une pénalité KL par jeton par rapport à la politique de référence, équilibrant ainsi le gain de récompense et le fait de rester proche du modèle d'origine.

Maîtriser l’optimisation des politiques proximales

L'optimisation des politiques proximales (PPO) est l'algorithme d'apprentissage par renforcement le plus associé à l'ajustement fin des modèles de langage à partir des commentaires humains. Il améliore une politique par petites étapes prudentes pour éviter l’instabilité qui sévit dans les méthodes naïves de gradient politique. L'optimisation des politiques proximales fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle. Pour acquérir une compréhension approfondie, traitez l'optimisation proximale des politiques comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant l'optimisation des politiques proximales conçoivent des invites, des boucles de récupération et de révision comme un seul système de communication intégré. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans le même temps, les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Il étend l’accès à toutes les langues et styles de communication.

Il étend l’accès à toutes les langues et styles de communication. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L’avenir de l’optimisation proximale des politiques

Le PPO reste fort mais est notoirement délicat : il nécessite un réseau de valeurs séparé, un réglage minutieux des hyperparamètres et beaucoup de calcul. Des alternatives plus simples gagnent du terrain, notamment le DPO (pas de RL du tout) et le GRPO, qui abandonnent le réseau de valeurs en estimant les avantages de groupes de réponses échantillonnées et qui ont alimenté des modèles de raisonnement récents. Le PPO persistera là où l’exploration politique est réellement utile, mais le domaine échange activement une partie de sa complexité contre des méthodes moins coûteuses.

Mise en œuvre dans le monde réel

Affiner InstructGPT et ChatGPT pour suivre les instructions et les préférences humaines via RLHF

Formation d'agents de jeu et de contrôle robotique, domaine d'origine de PPO avant les modèles linguistiques

Réduire la toxicité ou améliorer l'utilité en maximisant un score de modèle de récompense sous une contrainte KL

Optimiser l'utilisation des outils ou le comportement des agents en plusieurs étapes où un modèle est récompensé pour avoir accompli correctement les tâches

Modèles de mise en œuvre

L’optimisation proximale des politiques en pratique

Affiner InstructGPT et ChatGPT pour suivre les instructions et les préférences humaines via RLHF.

Ajuster InstructGPT et ChatGPT pour suivre les instructions et les préférences humaines via RLHF. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L’optimisation proximale des politiques en pratique

Formation d'agents de jeu et de contrôle robotique, domaine d'origine de PPO avant les modèles linguistiques.

Formation d'agents de jeu et de contrôle robotique, domaine d'origine de PPO avant les modèles linguistiques. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L’optimisation proximale des politiques en pratique

Réduire la toxicité ou améliorer l'utilité en maximisant un score de modèle de récompense sous une contrainte KL.

Réduire la toxicité ou améliorer l'utilité en maximisant un score de modèle de récompense sous une contrainte KL Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L’optimisation proximale des politiques en pratique

Optimisation de l'utilisation des outils ou du comportement des agents en plusieurs étapes où un modèle est récompensé pour avoir accompli correctement les tâches.

Optimisation de l'utilisation des outils ou du comportement des agents en plusieurs étapes où un modèle est récompensé pour avoir accompli correctement les tâches. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

!

Les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche.

!

La sensibilité des invites peut créer des résultats incohérents pour des demandes similaires.

!

Les données textuelles sensibles peuvent être exposées si les contrôles d’accès sont faibles.

Feuille de route de mise en œuvre

1

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement.

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

2

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante.

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

3

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés.

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

4

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail.

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer