La course aux modèles d'IA s'intensifie : OpenAI vient d'annoncer ses nouveaux modèles de raisonnement o3 et o4-mini , conçus pour réfléchir longuement avant de répondre. Il y a deux innovations notables : une plus grande aptitude à l'autonomie opérationnelle (qui les rend particulièrement adaptés aux fonctions agentiques) et la capacité à penser avec des images . Gemini , Grok , Meta AI , DeepSeek et Claude sont prévenus. OpenAI considère o3 comme son modèle de raisonnement le plus puissant à ce jour, surpassant les modèles précédents lors de tests mesurant les mathématiques, le codage, le raisonnement, les sciences et la compréhension visuelle. OpenAI o4-mini est un modèle plus petit optimisé pour un raisonnement rapide et rentable : selon OpenAI, il représente un compromis compétitif entre prix, vitesse et performances. o3 est particulièrement efficace dans les requêtes complexes qui nécessitent une analyse nuancée et dont les réponses peuvent ne pas être immédiatement évidentes, et fonctionne particulièrement bien dans les tâches visuelles telles que l'analyse d'images , de graphiques et de graphiques. En fait, nous le voyons exceller dans les tests SWE (qui évaluent la capacité à résoudre des problèmes de programmation dans GitHub), Aider Polyglot, MathVista et Humanity's Last Exam, pour n'en citer que quelques-uns. o4-mini a obtenu des résultats particulièrement bons aux tests AIME 2024 et 2025 (qui évaluent la capacité à résoudre des problèmes mathématiques), et a surpassé son prédécesseur sur des tâches non STEM et dans des domaines tels que la science des données. Pour donner quelques chiffres, dans le test SWE-bench (sans échafaudage personnalisé), o3 obtient un score de 69,1%, et o4-mini 68,1%, tandis que Claude 3.7 Sonnet a obtenu 62,3%.
Mais les caractéristiques notables de ces modèles vont au-delà des chiffres. Tout d'abord, o3 et o4-mini sont les premiers modèles capables d'utiliser indépendamment tous les outils ChatGPT , tels que la navigation Web, Python, la compréhension et la génération d'images. OpenAI donne un exemple : si vous lui demandez quelle sera la consommation d'énergie dans une zone donnée cet été par rapport à l'année dernière, le modèle peut rechercher sur le Web les données nécessaires, écrire du code Python pour générer une prévision, créer un graphique ou une image et expliquer les facteurs clés derrière la prévision. L’autre nouveauté concerne la capacité de « penser » avec des images. Cela signifie que les utilisateurs peuvent télécharger des images sur ChatGPT, telles que des croquis ou des diagrammes à partir de fichiers PDF, et les modèles analyseront les images pendant leur phase de « chaîne de pensée » avant de répondre. Grâce à cette nouvelle capacité, les o3 et o4-mini peuvent interpréter des images floues et de mauvaise qualité et effectuer des tâches telles que le zoom ou la rotation des images pour mieux les comprendre (un peu comme nous l'avons vu lors du lancement de Gemini 2.0 ). De plus, les nouveaux modèles ont été évalués par le Safety Advisory Group (SAG) d’OpenAI et ne répondent pas au seuil de sécurité pour les capacités en biologie, chimie, cybersécurité ou IA. Le PDG d'OpenAI, Sam Altman, a déclaré que o3 et o4-mini pourraient être les derniers modèles de raisonnement indépendants avant le lancement de GPT-5, un modèle qui, comme GPT-4.1 l'a fait pour les modèles traditionnels, unifiera les modèles de raisonnement.
À partir d'aujourd'hui, les modèles, ainsi qu'une variante de o4-mini appelée « o4-mini-high » qui passe plus de temps à fournir des réponses pour améliorer la fiabilité, sont disponibles pour les abonnés aux plans Pro (avec accès illimité), Plus et Team d'OpenAI (tous deux avec une limite de 150 requêtes par jour). Dans les semaines à venir, OpenAI annonce son intention de publier o3-pro , une version d'o3 qui utilise davantage de ressources informatiques pour produire ses réponses, exclusivement pour les abonnés ChatGPT Pro . En plus de ChatGPT, les trois modèles (o3, o4-mini et o4-mini-high) seront disponibles pour les développeurs via l'API Chat Completions et l'API Responses aux prix suivants :
- o3 : 10 $ par million de jetons d'entrée (environ 750 000 mots) et 40 $ par million de jetons de sortie
- o4-mini : 1,10 $ par million de jetons d'entrée et 4,40 $ par million de jetons de sortie.
OpenAI lance également Codex CLI , un agent de programmation léger et open source qui s'exécute localement dans le terminal de l'utilisateur. Pour soutenir les premiers projets, il lance également une initiative d’un million de dollars. Le financement sera accordé en tranches de 25 000 $ sous forme de crédits API. (
Lire la suite)