Face à la pression exercée par Gemini , OpenAI lance GPT 5.2 , doté d'une suite de fonctionnalités dédiées aux tâches spécialisées et aux flux opérationnels complexes . Les nouveautés concernent principalement la gestion de tâches complexes , de l'analyse de documents volumineux à la production de documentation technique. L'entreprise se proclame « leader en matière de benchmarks concrets », avec une nette amélioration de la qualité des opérations de raisonnement , ainsi qu'une plus grande stabilité lors des séries de production plus longues . La variante GPT 5.2 Thinking obtient d'excellents résultats lors des évaluations professionnelles. Dans le benchmark GDPval , qui mesure les tâches de connaissances structurées dans 44 professions, le modèle atteint 70,9 % de réponses considérées comme correctes ou comparables à celles des experts du secteur, contre 38,8 % pour GPT-5. Le temps de production est plus court et les coûts de l'API sont réduits grâce à une meilleure efficacité des jetons. Lors de tests internes dédiés à la modélisation par des analystes financiers juniors , la série 5.2 atteint un score moyen de 68,4 % , ce qui représente une amélioration par rapport à la génération précédente. Les résultats comprennent des activités telles que la construction de modèles à trois bilans et des simulations de rachats par endettement . Une comparaison côte à côte avec les versions précédentes montre des documents plus cohérents et mieux formatés , tant dans les feuilles de calcul que dans les présentations , y compris dans des cas comme la création de modèles de planification des effectifs qui intègrent plusieurs départements et variables.
Côté programmation , GPT 5.2 Thinking obtient un score de 55,6 % sur SWE Bench Pro , qui propose des scénarios concrets dans quatre langages différents. Sur SWE Bench Verified , plus proches des situations de maintenance Python, ce score atteint 80 % . Les retours des développeurs font état d'une meilleure gestion du refactoring, du débogage et de la mise en œuvre de requêtes complexes. La série s'améliore également dans les applications front-end , y compris dans les cas nécessitant des interfaces avec des éléments tridimensionnels, comme le démontrent des exemples où le modèle génère des applications complètes dans un seul fichier HTML . Dans la gestion de contexte long , GPT 5.2 Thinking atteint des valeurs proches de 100 % dans la variante à quatre indices du test MRCR jusqu'à 256 000 jetons , ce qui permet d'analyser des documents tels que des rapports d'entreprise, des contrats complexes, des recherches scientifiques et des projets multi-fichiers. Au niveau de la vision , les erreurs sont considérablement réduites lors de la lecture des interfaces graphiques et logicielles . Dans les scénarios nécessitant l'identification des composants et de leur disposition spatiale, le modèle peut identifier les éléments de la carte électronique avec une plus grande précision, même sur des images de faible qualité.
L'invocation d'outils atteint un score de 98,7 % au test de performance Tau2 Telecom , ce qui est particulièrement utile pour les flux de travail nécessitant des séquences d'opérations coordonnées, comme la gestion des dossiers clients. Dans un exemple évalué, GPT 5.2 gère l'intégralité du processus de modification de réservation de vol, d'attribution de sièges spéciaux et de procédures d'indemnisation. Dans les disciplines scientifiques et mathématiques , GPT 5.2 Pro obtient un score de 93,2 % sur GPQA Diamond , tandis que GPT 5.2 Thinking obtient un score de 40,3 % sur FrontierMath dans les catégories 1 à 3, démontrant une résolution plus fiable des problèmes à plusieurs étapes. En matière de sécurité , le modèle réduit les réactions inappropriées dans des domaines sensibles tels que la santé mentale et l'automutilation , avec des améliorations mesurables des évaluations internes. Un système de détection de l'âge est mis en place pour activer automatiquement des protections supplémentaires.
La gamme GPT 5.2 est disponible à partir des abonnements payants de ChatGPT et désormais également via l' API . Le coût est de 1,75 $ (environ 1,60 €) pour un million de jetons entrants et de 14 $ (environ 13 €) pour un million de jetons sortants. La version GPT 5.2 Pro coûte 168 $ (environ 153 €) pour un million de jetons générés. Les versions 5.1 restent utilisables pour le moment et leur arrêt n'est pas prévu à court terme. Le communiqué de presse d'OpenAI remercie également Nvidia et Microsoft , qui ont fourni l'infrastructure basée sur les GPU NVL72 H100 , H200 et GB200 pour la phase d'entraînement. Cela montre que dans le domaine de l'IA, les sept géants du numérique collaborent étroitement. Il est clair, cependant, que la sortie de GPT-5.2 est une réponse à Gemini 3 Pro : nous ne nous souvenons pas d’un lancement précédent d’OpenAI aussi riche en benchmarks et comparaisons , manifestement destinés à souligner les progrès accomplis . Or, quiconque utilise régulièrement des modèles de langage (LLM) sait pertinemment que l’usage réel et la perception de l’utilisateur sont souvent très éloignés des benchmarks , à tel point qu’un pan entier de la recherche est consacré à l’invention de nouvelles méthodes pour « mesurer l’intelligence » : une tâche loin d’être simple. (
Lire la suite)