Claude Opus 4.6 : 16 agents codent un compilateur C Rust validé Linux
En deux semaines et pour environ 20 000 $ d’API (environ 18 500 € au taux actuel), 16 instances de Claude Opus 4.6 ont collaboré sans supervision centrale pour écrire près de 100 000 lignes de Rust et livrer un compilateur C complet. L’initiative, menée par Nicholas Carlini chez Anthropic, s’appuie sur des « Agent Teams » cloisonnés dans des conteneurs Docker, tous reliés à un même dépôt Git.

Chaque agent fonctionnait comme un développeur autonome : identification des priorités, réservation de tâches via un fichier de verrouillage, commits et push vers la branche amont. Aucun agent d’orchestration n’a été défini. Les conflits de fusion ont été traités par les modèles eux-mêmes, qui ont su converger après quelque 2 000 sessions de code. La facture d’API agrégée atteint 20 000 $, pour un codebase Rust final dépassant les 100 000 lignes.
Un toolchain qui cible x86, ARM et RISC-V

Le projet open source publié sur GitHub produit un compilateur C capable de générer des binaires pour x86, ARM et RISC-V. En validation, l’outillage a compilé un noyau Linux 6.9 amorçable sur ces architectures et a passé le GCC Torture Test Suite à 99 %. Il a également mené à terme la compilation de PostgreSQL, SQLite, Redis et FFmpeg, des cibles révélatrices de la maturité du front-end, de la sémantique et de la chaîne de génération.
Comme épreuve finale, le compilateur a produit une build fonctionnelle de « Doom », souvent considéré comme un jalon pratique pour valider ABI, appels systèmes et gestion mémoire en conditions réelles. L’ensemble du pipeline et des correctifs issus des résolutions de conflits est documenté dans l’historique Git du dépôt.
Architecture de la collaboration et coûts
Les 16 agents, isolés en conteneurs, partageaient un même dépôt cloné et utilisaient un mécanisme de lock file pour s’attribuer les tâches, limitant le piétinement mutuel. L’absence de planificateur central a été compensée par une logique locale : priorisation des bugs bloquants, bifurcation des chantiers et résolutions des merges via échanges contextualisés. Le rythme de travail s’est stabilisé autour de milliers d’itérations courtes, avec une granularité suffisante pour faciliter les revues croisées automatisées.
Le coût de 20 000 $ (environ 18 500 €) reflète un flux intensif d’appels API sur Opus 4.6 et une orchestration minimale côté humain. Le ratio coût/portée technique, au vu de la qualité mesurée par la suite de tests GCC et de la compatibilité avec Linux 6.9 et des stacks logicielles lourdes, positionne l’expérience comme un jalon significatif pour l’ingénierie logicielle multi-agents.
Au-delà de la démonstration, l’intérêt industriel tient à la capacité d’une équipe d’agents non orchestrée à livrer un composant système critique, transposable à d’autres briques toolchain. Si de tels workflows deviennent reproductibles avec des coûts prévisibles, on peut imaginer des sprints de maintenance de compilateurs, des ports d’architectures émergentes ou des campagnes de durcissement de toolchains menés par des équipes d’IA, avec des humains concentrés sur la conception des passes, la sécurité et la gouvernance du code.
Source : ITHome