Aperçu
Sakana AI est un laboratoire basé à Tokyo qui applique à l'IA des méthodes inspirées de la nature, notamment en utilisant des algorithmes évolutifs pour fusionner des modèles ouverts existants en de nouveaux et meilleurs. Au lieu de s'entraîner à partir de zéro, il « engendre » des modèles en combinant automatiquement leurs points forts.
La fusion de modèles évolutifs Sakana AI est mieux comprise dans le contexte de la stratégie, de l'accès aux modèles, des décisions de plate-forme et des partenariats écosystémiques.
Plongée profonde
Sakana AI a été fondée en 2023 par Llion Jones, co-auteur de l'article original de Transformer « Attention Is All You Need », et David Ha, anciennement de Google Brain. Le nom signifie « poisson » en japonais, reflétant une philosophie inspirée des écoles et des essaims : de nombreux petits agents collectifs plutôt qu'un modèle géant. Sa technique révolutionnaire, Evolutionary Model Merging, utilise la recherche évolutive pour découvrir comment combiner les poids et les couches de plusieurs modèles open source pré-entraînés. L'algorithme explore des milliers de recettes de fusion, en conservant les combinaisons qui obtiennent de bons résultats sur les tâches cibles. Sakana a utilisé cela pour créer des modèles mathématiques et visuels japonais et japonais performants en fusionnant des modèles existants, pour une infime fraction du coût de formation de nouveaux. La société a également produit « AI Scientist », un système qui tente d'automatiser la recherche elle-même.
Aperçu technique
La fusion de modèles mélange les paramètres de réseaux formés séparément. Sakana évolue en fusionnant deux espaces à la fois : l'espace des paramètres (comment pondérer et interpoler les poids de chaque modèle, couche par couche) et l'espace des flux de données (à partir de quelles couches à partir de quels modèles empiler et dans quel ordre). Un algorithme évolutif propose des recettes candidates, les évalue sur un benchmark, sélectionne et mute les meilleures, en itérant vers des hybrides très performants sans formation basée sur le gradient.
Maîtriser la fusion des modèles évolutifs de Sakana AI
Sakana AI est un laboratoire basé à Tokyo qui applique à l'IA des méthodes inspirées de la nature, notamment en utilisant des algorithmes évolutifs pour fusionner des modèles ouverts existants en de nouveaux et meilleurs. Au lieu de s'entraîner à partir de zéro, il « engendre » des modèles en combinant automatiquement leurs points forts. La fusion de modèles évolutifs Sakana AI est mieux comprise dans le contexte de la stratégie, de l'accès aux modèles, des décisions de plate-forme et des partenariats écosystémiques. Pour développer une compréhension approfondie, traitez la fusion des modèles évolutifs Sakana AI comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.
Dans la pratique, des équipes solides utilisant Sakana AI Evolutionary Model Merging évaluent la stratégie du fournisseur, la fiabilité de la feuille de route et le risque de verrouillage avant de s'engager. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.
Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer. Dans le même temps, les annonces de lancement peuvent dépasser la stabilité des flux de production réels. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.
Impact stratégique
Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer.
Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Les conditions commerciales et les options de déploiement affectent les coûts et les risques à long terme.
Les conditions commerciales et les options de déploiement affectent les coûts et les risques à long terme. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Les incitations des entreprises façonnent les défauts des produits, la posture de sécurité et l’ouverture.
Les incitations des entreprises façonnent les défauts des produits, la posture de sécurité et l’ouverture. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Mise en œuvre dans le monde réel
Création d'un modèle linguistique solide compatible avec le japonais en fusionnant des modèles ouverts anglais et japonais sans recyclage
Construire un modèle de raisonnement mathématique japonais en faisant évoluer des combinaisons de modèles spécialisés en mathématiques
Produire un modèle de langage de vision qui gère le texte japonais dans les images via une fusion inter-domaines
Permettre aux petites organisations d'assembler à moindre coût des modèles spécifiques à des tâches à partir d'évaluations ouvertes au lieu de se former à partir de zéro
Modèles de mise en œuvre
Fusion du modèle évolutif Sakana AI en pratique
Création d'un modèle linguistique solide compatible avec le japonais en fusionnant des modèles ouverts anglais et japonais sans recyclage.
Créer un modèle linguistique solide compatible avec le japonais en fusionnant des modèles ouverts anglais et japonais sans recyclage. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
Fusion du modèle évolutif Sakana AI en pratique
Construire un modèle de raisonnement mathématique japonais en faisant évoluer des combinaisons de modèles spécialisés en mathématiques.
Construire un modèle de raisonnement mathématique japonais en faisant évoluer des combinaisons de modèles spécialisés en mathématiques. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
Fusion du modèle évolutif Sakana AI en pratique
Produire un modèle de langage de vision qui gère le texte japonais dans les images via une fusion inter-domaines.
Produire un modèle de langage de vision qui gère le texte japonais dans les images via une fusion inter-domaines. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, conservent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
Fusion du modèle évolutif Sakana AI en pratique
Permettre aux petites organisations d’assembler à moindre coût des modèles spécifiques à des tâches à partir d’évaluations ouvertes au lieu de se former à partir de zéro.
Permettre aux petites organisations d'assembler à moindre coût des modèles spécifiques à des tâches à partir de pondérations ouvertes au lieu de se former à partir de zéro. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
Risques et garde-fous
Les annonces de lancement peuvent dépasser la stabilité des flux de production réels.
La tarification des API ou les changements de politique peuvent briser les hypothèses du jour au lendemain.
La dépendance à un seul fournisseur augmente les coûts de verrouillage et de migration.
Feuille de route de mise en œuvre
Évaluez les fournisseurs à l’aide de vos propres tâches et ensembles de données.
Évaluez les fournisseurs à l’aide de vos propres tâches et ensembles de données. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Vérifiez les conditions de confidentialité, de sécurité et juridiques avant l’intégration.
Vérifiez les conditions de confidentialité, de sécurité et juridiques avant l’intégration. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Maintenez un plan de secours entre les modèles ou les fournisseurs.
Maintenez un plan de secours entre les modèles ou les fournisseurs. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Surveillez les notes de version afin que les modifications de la feuille de route ne surprennent pas les équipes.
Surveillez les notes de version afin que les modifications de la feuille de route ne surprennent pas les équipes. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.