Sakana Fugu Emballe un Orchestrateur Multi-Agents Derrière une API Unique, Revendique la Parité Avec Fable et Mythos

Sakana Fugu Emballe un Orchestrateur Multi-Agents Derrière une API Unique, Revendique la Parité Avec Fable et Mythos

lschvn

Sakana AI a lancé Sakana Fugu le 22 juin 2026, un système d'orchestration multi-agents livré comme une seule API modèle compatible OpenAI. Le produit propose deux niveaux : Fugu, équilibré pour la latence et l'usage quotidien, et Fugu Ultra, optimisé pour la qualité maximale sur les tâches difficiles multi-étapes. La revendication phare : Fugu Ultra atteint les performances de Fable 5 et Mythos Preview d'Anthropic sur les benchmarks de codage, raisonnement et sciences, sans le risque de contrôles à l'exportation.

Le tweet de lancement de hardmaru (David Ha), cofondateur de Sakana AI, présente le produit comme un pari philosophique : « L'intelligence humaine est fondamentalement une intelligence collective. Nous résolvons des problèmes complexes en participant à un vaste réseau culturel qui s'appuie sur les idées à travers les générations. Je crois que les systèmes d'IA les plus puissants deviendront eux aussi une intelligence collective. » Le post compte 1 056 likes et 131 retweets au moment de la rédaction. Le tweet d'annonce du compte officiel dépasse 9 000 likes et 3,7M de vues.

Le cadrage : « Les modèles d'orchestration sont la prochaine frontière »

Le pitch de Sakana n'est pas « nous avons construit un modèle plus gros ». C'est « nous avons construit un modèle qui commande d'autres modèles ». Le blog de lancement appelle cela un « Modèle d'Orchestration », le positionnant au-delà du paradigme de mise à l'échelle par la force brute. Fugu est lui-même un modèle de langage, entraîné à décider quand déléguer, quels agents assembler, comment ils doivent communiquer, et comment synthétiser leurs sorties en une seule réponse.

L'angle géopolitique est délibéré. Le blog cite les récents contrôles à l'exportation sur Fable et Mythos d'Anthropic comme l'événement déclencheur : « l'accès aux meilleurs modèles peut disparaître du jour au lendemain. » Le pitch de Fugu : si un fournisseur restreint l'accès, le système contourne la perturbation en échangeant des agents dans son pool. hardmaru appelle cela « le plan résilient requis pour la souveraineté IA ».

La correction du cadrage : il s'agit d'une souveraineté sur l'orchestration, pas sur les modèles eux-mêmes. Le pool d'agents de Fugu se compose de modèles API closed-source que Sakana ne nomme pas. Si les fournisseurs sous-jacents restreignent l'accès, Fugu peut échanger, mais il dépend toujours de modèles closed-source externes étant disponibles. La revendication de souveraineté est réelle au niveau du routage mais ne s'étend pas à l'indépendance vis-à-vis des modèles.

L'architecture : TRINITY et Conductor

L'orchestration de Fugu repose sur deux articles ICLR 2026 :

TRINITY (arxiv 2512.04695) introduit un coordinateur léger (~0,6B de paramètres plus une tête de ~10K paramètres) optimisé avec une stratégie évolutionniste (CMA-ES, Covariance Matrix Adaptation Evolution Strategy). Le coordinateur traite les requêtes sur plusieurs tours, attribuant l'un des trois rôles à chaque tour : Thinker (raisonnement), Worker (exécution) ou Vérificateur (vérification). L'idée clé : sous haute dimensionnalité et des contraintes de budget strictes, CMA-ES surpasse l'apprentissage par renforcement, l'apprentissage par imitation et la recherche aléatoire en exploitant la séparabilité bloc-epsilon dans l'espace des paramètres. L'article rapporte 86,2% sur LiveCodeBench, surpassant les modèles frontière individuels.

Conductor (arxiv 2512.04388) est un modèle de 7B entraîné par apprentissage par renforcement pour découvrir des stratégies de coordination en langage naturel. Là où TRINITY attribue des rôles fixes, Conductor apprend à concevoir des topologies de communication entre agents et des prompts ciblés. Le modèle est entraîné avec des pools d'agents randomisés, ce qui le généralise à des ensembles arbitraires d'agents open- et closed-source au moment de l'inférence. Permettre au Conductor de se sélectionner lui-même comme worker crée des topologies récursives, une forme de mise à l'échelle dynamique au temps de test par adaptation itérative en ligne.

Ensemble, ces deux articles fournissent la fondation de recherche. Fugu le produit les enveloppe dans un système où l'utilisateur appelle un seul endpoint et l'orchestration se produit en interne.

Deux modèles, une API

Fugu se décline en deux modèles, tous deux accessibles via une seule API compatible OpenAI :

Fugu (le modèle de base) équilibre performance et latence. Il est conçu pour le travail quotidien : assistance au codage, revue de code, services de chatbot. Sakana le positionne comme un remplacement direct des endpoints à modèle unique dans des outils comme Codex. Les équipes avec des exigences de conformité peuvent exclure des agents spécifiques de son pool.

Fugu Ultra coordonne un pool plus profond d'agents experts pour une qualité de réponse maximale. Les premiers utilisateurs rapportent l'avoir déployé pour des compétitions Kaggle, la reproduction d'articles, l'analyse de cybersécurité et les investigations de brevets. La différence clé : Fugu Ultra peut assembler des workflows multi-étapes où différents modèles spécialisés gèrent la planification, l'exécution et la vérification.

L'intégration est simple. Pas de configuration de framework multi-agents, pas de définitions d'agents, pas de configuration de workflow. Vous envoyez une requête à un seul endpoint et le système gère le reste.

Le tableau des benchmarks

Voici les chiffres publiés par Sakana, reproduits intégralement :

BenchmarkFuguFugu UltraOpus 4,8 †Gemini 3,1 Pro †GPT 5,5 †
SWE-bench Pro *59,073,769,254,258,6
TerminalBench 2,180,282,174,670,378,2
LiveCodeBench92,993,287,888,585,3
LiveCodeBench Pro87,890,884,882,988,4
Humanity's Last Exam47,250,049,844,441,4
CharXiv Reasoning85,186,684,283,384,1
GPQA-D95,595,592,094,393,6
SciCode60,158,753,558,956,1
τ³ Banking21,720,620,68,420,6
Long Context Reasoning74,773,367,772,774,3
MRCRv286,693,687,984,994,8

* Utilise mini-swe-agent comme scaffolding.† Scores rapportés par les fournisseurs.

Les notes de bas de page comptent. Tous les scores de référence proviennent des fournisseurs de modèles eux-mêmes, pas d'une reproduction indépendante. Les scores de Fugu sont les mesures de Sakana. La comparaison est asymétrique : Fugu Ultra passe par une couche d'orchestration qui génère plusieurs appels de modèles par tâche, tandis que les références sont des évaluations à modèle unique. Sakana ne rapporte pas combien de tokens Fugu Ultra consomme par tâche de benchmark, quel est le coût par tâche, ou combien de tours d'agent chaque problème nécessite.

Sur SWE-bench Pro, les 73,7 de Fugu Ultra dépassent les 69,2 d'Opus 4,8 de 4,5 points. Sur TerminalBench 2,1, l'écart est de 7,5 points (82,1 contre 74,6). Sur LiveCodeBench, il est de 5,4 points (93,2 contre 87,8). Ce sont des écarts réels, mais la comparaison coût-efficacité est manquante. Comme le note l'ingénieur ML Elie Bakouch : « ils introduisent une méthode de « mise à l'échelle au temps de test » avec « best of N » sur des modèles, et ils ne rapportent LITTÉRALEMENT JAMAIS le nombre de tokens en sortie ou le coût pour atteindre un benchmark/tâche. »

Les démos qualitatives

Au-delà des benchmarks, Sakana présente six scénarios de démonstration où Fugu Ultra surpasse les modèles frontière de référence :

  1. AutoResearch (cadre Karpathy et al.) : un agent IA a amélioré de manière autonome la recette d'entraînement d'un petit GPT sur 123 expériences sur un seul GPU H100 en ~14 heures. Fugu Ultra a atteint un BPB moyen de 0,9774 ± 0,0019, devant trois références frontière anonymisées (« Modèle A/B/C »). Sakana ne nomme pas quels modèles sont A, B et C.
  2. Ordre de lecture des lettres kana : analyse de manuscrits japonais classiques sur une lettre de 1610. Fugu Ultra a obtenu 0,80 NED (distance d'édition normalisée) contre 0,24 pour le Modèle A.
  3. Génération de solveur Rubik's Cube : génération de code pour un casse-tête physique.
  4. Iris mécanique CAD : génération de conception mécanique.
  5. Échecs en aveugle : génération de partie d'échecs en one-shot.
  6. Trading de séries temporelles : prédiction financière.

Les démos sont visuellement convaincantes (des walkthroughs vidéo sont intégrés sur la page produit), mais les références anonymisées rendent la vérification indépendante impossible. L'expérience AutoResearch est particulièrement intéressante car elle teste un travail agentic multi-étapes soutenu, qui est le point fort conçu de Fugu Ultra.

Tarification et déploiement

Sakana propose des tarifs par abonnement et à l'usage :

Niveaux d'abonnement (tous incluent Fugu et Fugu Ultra) :

  • Standard : 20$/mois
  • Pro : 100$/mois
  • Max : 200$/mois

Paiement à l'usage (par 1M de tokens) :

  • Entrée : 5$
  • Sortie : 30$
  • Entrée en cache : 0,50$
  • Au-delà de 272K tokens de contexte : 10$ entrée, 45$ sortie, 1,00$ cache

Sakana rapporte l'utilisation de tokens par requête pour que les utilisateurs puissent suivre les dépenses en temps réel. L'API est compatible OpenAI, donc l'intégration nécessite de changer une URL d'endpoint et un nom de modèle.

Non disponible en UE/EEE. La page produit indique que la conformité avec le RGPD et les réglementations spécifiques à l'UE est en cours. Aucune date.

Le chiffre de coût manquant : combien de tokens une tâche typique de Fugu Ultra consomme. Si Fugu Ultra génère 5 appels d'agents par problème (la limite identifiée par Bakouch), et que chaque appel utilise un modèle frontière, le coût effectif par tâche est 5x le tarif par token. Pour SWE-bench Pro, où Fugu Ultra passe par le scaffolding mini-swe-agent, le nombre total de tokens par problème est inconnu.

La critique

La critique publique la plus détaillée vient d'Elie Bakouch, un ingénieur ML qui a lu le rapport technique. Son analyse :

  1. Fugu (non Ultra) est un routeur. Il sélectionne le modèle le plus susceptible de répondre correctement à chaque tour. C'est un classifieur, pas un orchestrateur. Il obtient 10 points en dessous d'Opus sur SWE-bench Pro (59,0 contre 69,2).
  2. Fugu Ultra est un « mode plan avancé ». Il sort un plan avec plusieurs workflows à t=0, avant que les agents ne commencent à travailler. Bakouch argue que c'est la mauvaise architecture : « il faut prédire ce qu'on lance à t+1 avec l'information qu'on obtient à t, pas avec l'information qu'on obtient à t=0. » Le système est limité à 5 étapes.
  3. Closed source sur closed source. « Si avant vous ne contrôliez pas les modèles, maintenant vous ne contrôlez même pas lesquels sont utilisés ni combien. »
  4. Pas de transparence des coûts. Le plus gros problème : introduire une méthode de mise à l'échelle au temps de test avec best-of-N sur des modèles sans jamais rapporter le nombre de tokens en sortie ou le coût par benchmark.
  5. Références anonymisées. La comparaison AutoResearch utilise des références « Modèle A, B et C » sans les nommer. « C'est vraiment fou de ne pas être transparent sur les modèles avec lesquels on se compare. »
  6. Mauvais cadre de comparaison. La comparaison juste n'est pas Fugu Ultra vs. Opus brut, mais Fugu Ultra vs. Opus avec ultracode/workflows activés. De même, la comparaison devrait être contre Kimi Swarm, pas Kimi brut.

La critique est substantielle. Le discours de souveraineté est convaincant au niveau géopolitique mais mince au niveau technique : Fugu dépend des mêmes fournisseurs closed-source contre lesquels il prétend se protéger. Les chiffres de benchmark sont réels mais incomparables sans données de coût. L'architecture est novatrice (l'orchestration apprise bat les workflows conçus manuellement) mais les contraintes du système de production (pool fermé, limite de 5 étapes, pas d'adaptation pendant l'exécution) réduisent son avantage.

Ce qu'il faut surveiller

  1. Reproduction indépendante des benchmarks. Le signal le plus important. Des tiers peuvent-ils reproduire les scores SWE-bench Pro et TerminalBench de Fugu Ultra avec l'API publique ? Le scaffolding mini-swe-agent est open-source ; n'importe qui peut lancer l'évaluation.
  2. Divulgation du nombre de tokens. Sakana publiera-t-il les nombres de tokens par tâche pour les problèmes de benchmark ? Sans cela, les revendications d'efficacité sont invérifiables.
  3. Transparence du pool d'agents. Quels modèles sont dans le pool ? Sakana dit « modèles API closed-source » mais ne les nomme pas. Si le pool est GPT 5,5 + Opus 4,8 + Gemini 3,1 Pro, l'histoire d'orchestration concerne le routage, pas la construction de capacité frontière.
  4. Disponibilité UE/EEE. La conformité RGPD est le blocage. Surveiller le DPA (Data Processing Agreement) de Sakana et les engagements de résidence des données dans l'UE.
  5. Modèles open-weights dans le pool. Sakana prévoit d'ajouter des modèles open et ses propres modèles. Si le pool de Fugu inclut Llama 4, Qwen 3,7 ou les modèles entraînés par Sakana, l'histoire de souveraineté se renforce matériellement.
  6. Profondeur d'auto-orchestration récursive. L'article Conductor montre des topologies récursives (l'orchestrateur s'appelle lui-même). À quelle profondeur cela va-t-il en production ? L'orchestration récursive est la revendication technique la plus novatrice et la plus difficile à vérifier de l'extérieur.
  7. Adoption par la communauté. 500 utilisateurs bêta est un signal significatif. Surveiller les résultats de compétitions Kaggle, les rapports d'audit de cybersécurité et les comparaisons de qualité de revue de code avec l'API publique.

Le mot de la fin

Sakana Fugu est le premier système de production qui emballe l'orchestration multi-agents apprise comme un seul endpoint API. La fondation de recherche (TRINITY + Conductor, tous deux ICLR 2026) est solide, et les chiffres de benchmark sont compétitifs avec la frontière actuelle. Le cadrage « Modèle d'Orchestration » est le bon pari à long terme : à mesure que les modèles prolifèrent, la couche de coordination devient le différenciateur.

La faiblesse du lancement est la transparence. Pas de coût par benchmark, pas de divulgation du pool d'agents, pas de reproduction indépendante, des références anonymisées dans les démos. Le discours de souveraineté est émotionnellement résonnant mais techniquement incomplet : Fugu contourne les restrictions des fournisseurs au niveau de l'orchestration tout en dépendant des mêmes fournisseurs au niveau des modèles. Pour les développeurs qui évaluent Fugu, la question pratique n'est pas « bat-il Opus ? » mais « bat-il Opus au même coût ou moins ? ». Cette question reste sans réponse.

Questions fréquentes

Bun intègre le React Compiler directement dans son bundler, environ 20x plus rapide que le plugin Babel

La PR #32504, fusionnée dans oven-sh/bun le 20 juin 2026, transforme le portage Rust amont du React Compiler en transformation intégrée à `bun build`, derrière `--react-compiler` et `Bun.build({ reactCompiler: true })`. Bun porte directement l'espace de travail `compiler/crates/` de `facebook/react` dans une unique crate `src/react_compiler/` (~62 k LOC) plutôt que de passer par Babel, SWC ou Oxc, et sur une grosse base de code React (environ 860 composants, 1400 slots de mémo) la passe du compilateur s'exécute en 465 ms contre 9,15 s pour le plugin Babel. La fonctionnalité est expérimentale, désactivée par défaut, et livrée avec `reactCompilerOutputMode` (client ou ssr) et un script `scripts/sync-react-compiler.sh` pour resynchroniser le portage.

Oxc v0.137 apprend au minifier à treeshaker les tableaux typés purs et les littéraux Set/Map, livre un rafraîchissement de portée incrémental, et corrige un cas limite du React Compiler

La release Oxc crates_v0.137.0, publiée le 2026-06-18, livre deux nouvelles passes de treeshaking pour le minifier (treeshake des tableaux typés purs et des littéraux de tableau Set/Map via #23469, et inline de la valeur const pour les variables read-only via #22593), un rafraîchissement de portée incrémental de longue haleine qui supprime entièrement le collecteur LiveUsageCollector (#23197), une erreur d'analyseur conviviale pour les éléments JSX adjacents (#23378), un correctif du React Compiler pour les imports référencés uniquement par une clé calculée (#23586), et deux changements cassants de l'API de configuration ESTree (#23573, #23574). La liste des passes du minifier reçoit aussi un correctif Proxy-aware pour les appels d'introspection d'Object (#23483) et une nouvelle règle de préservation de Map/WeakSet/WeakMap pour les arguments string (#23470). v0.137 est la première release de crates depuis v0.135 le 2026-06-08 et la deuxième depuis que l'intégration native du React Compiler dans Bun a atterri le 2026-06-20.

Articles connexes

Plus de couverture avec des sujets et tags en commun.

L'Open Knowledge Format de Google Cloud est un standard, pas un produit : plongée dans OKF v0.1
ai

L'Open Knowledge Format de Google Cloud est un standard, pas un produit : plongée dans OKF v0.1

Le 12 juin 2026, Google Cloud a publié l'Open Knowledge Format (OKF), une spécification ouverte qui formalise le pattern LLM-wiki en format portable et interopérable : un répertoire de fichiers markdown avec frontmatter YAML, un seul champ obligatoire (type), cinq recommandés, et zéro outillage requis. Le tweet de Google Cloud Tech du 16 juin a généré 117 000 vues en 24 heures et a fait de la spec l'annonce de format de connaissance la plus discutée de l'année. Cette longue lecture parcourt la spec v0.1 section par section, les choix de design qui la rendent délibérément minimale, ce que Google livre avec (un agent d'enrichissement pour BigQuery, un visualiseur HTML statique, trois bundles d'exemple, et une intégration native au Knowledge Catalog BigQuery), et la question ouverte que tout constructeur d'agents IA et toute équipe plateforme de données devraient suivre sur les six prochains mois.
SpaceX rachète Cursor pour 60 milliards de dollars : plongée dans le plus gros deal IA de l'année pour le code
ai

SpaceX rachète Cursor pour 60 milliards de dollars : plongée dans le plus gros deal IA de l'année pour le code

Le 16 juin 2026, quatre séances après l'IPO record de SpaceX à 85,7 milliards de dollars qui a fait d'Elon Musk le premier trillionnaire de la planète, l'entreprise a confirmé le rachat d'Anysphere, la maison-mère de l'éditeur de code IA Cursor, dans une transaction 100% en actions valorisée à 60 milliards. Le prix représente environ 16x la valorisation privée de Cursor fin 2025, le double de la levée qu'elle était sur le point de boucler, et la transaction boucle un montage inhabituel d'avril où SpaceX avait le droit d'acheter Cursor pour 60 Md$ ou de payer 10 Md$ pour le partenariat à la place. Cette longue lecture décortique la mécanique du deal, l'histoire de l'IPO comme monnaie d'acquisition, le pari technologique sur Composer + Colossus, le lien avec l'effondrement de xAI, et les questions que tout développeur utilisant Cursor, Claude Code, Copilot ou n'importe quel autre outil de code IA devrait se poser cette semaine.
Staan, la première API de recherche européenne, passe en libre-service : plongée en profondeur
ai

Staan, la première API de recherche européenne, passe en libre-service : plongée en profondeur

Le 15 juin 2026, à VivaTech, l'API de recherche Staan est passée en libre-service pour tout développeur. C'est la surface publique d'European Search Perspective, la coentreprise 50/50 entre Qwant et Ecosia qui exploite l'index de recherche européen, et le lancement s'inscrit dans le vide laissé par la retraite de l'API Bing Search de Microsoft en août 2025 et par l'accès programmatique restreint de Google. Ce long format détaille le pipeline, les trois niveaux de produit, la tarification, le récit de souveraineté et ses limites, le « mécanisme de backup américain » et ce que cela signifie pour les agents IA et les outils de développement qui dépendent d'un index web frais.

Commentaires

Connexion Connectez-vous pour participer à la conversation.

Pas encore de commentaires. Soyez le premier à partager vos pensées.