[Offert] OpenAI veut absolument nous faire croire que GPT-5 a le niveau d’un chercheur
Marketing pseudoscientifique
Ce jeudi 20 novembre, des chercheurs d’OpenAI ont mis en ligne une série de témoignages sur l’utilisation de GPT-5 en recherche. En jouant avec les codes de la publication scientifique sans faire un réel travail de recherche, ils appuient la communication de leur entreprise et poussent les chercheurs à adopter leur outil dans leur routine de travail.
Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 24 novembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !
OpenAI et ses chercheurs ont publié ce jeudi 20 novembre sur le blog de l’entreprise un billet vantant les mérites de GPT-5 qui permettrait d’ « accélérer la science ». L’entreprise s’appuie pour cela sur des témoignages de chercheurs qu’elle a recueillis et compilés dans un fichier qui a la présentation d’un article scientifique, qui a comme auteurs des chercheurs qui pourraient signer un article scientifique, mais qui n’est pas un article scientifique.
De vieilles lunes
Rappelons d’abord qu’il y a trois ans quasiment jour pour jour, Meta s’était embourbée dans un « bad buzz » après avoir publié son IA Galactica. À l’époque, l’entreprise expliquait que cette IA était un grand modèle de langage pour la science capable de « résumer la littérature académique, résoudre des problèmes de maths, générer des articles Wiki, écrire du code scientifique, annoter des molécules et des protéines, et plus encore ». Critiqué par la communauté scientifique, notamment car Galactica pouvait générer des réponses fausses à des questions de culture scientifique assez basiques, le projet avait été dépublié au bout de trois jours. Seulement une semaine après, Sam Altman annonçait, avec un peu moins d’arrogance que Meta à l’époque, la disponibilité d’un nouveau chatbot : ChatGPT.
Les proclamations des entreprises d’IA génératives pour nous assurer que leurs outils sont de très bons compagnons pour les chercheurs ne sont donc pas nouvelles.
D’ailleurs, si OpenAI est resté pendant un temps un peu en dehors de ces déclarations, l’entreprise affirmait en septembre 2024 que son modèle o1, « dépassait le niveau d’un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie, tout en précisant un peu plus loin que « ces résultats ne signifient pas que o1 est plus compétent qu’un docteur à tous égards, mais seulement que le modèle est plus performant pour résoudre certains problèmes qu’un docteur serait censé résoudre ».
Nous expliquions en juin dernier que le benchmark utilisé se basait sur un QCM alors que les compétences demandées à un chercheur ne sont pas de répondre à des questions de culture scientifique (même très pointue) mais de formuler des problèmes scientifiques, d’établir des projets de recherche et de mettre en place des protocoles, tout ça pour trouver potentiellement de nouvelles réponses. Comme le remarquait Ars Technica, l’industrie de l’IA a, depuis ce moment-là, adopté le terme marketing « PhD-level AI » (« IA du niveau doctorat », en français) pour promouvoir ses modèles.
« Comme un chercheur débutant »
« Avec notre modèle le plus avancé, GPT-5, nous avons maintenant des IA qui agissent vraiment comme un chercheur débutant », affirme maintenant le chercheur d’OpenAI Sébastien Bubeck interrogé par Le Monde.
L’entreprise joue d’ailleurs sur le fil, puisque si son chercheur compare GPT-5 à un « chercheur débutant », dans son billet, OpenAI avoue qu’ « il ne mène pas de projets ni ne résout de problèmes scientifiques de manière autonome, mais il peut élargir le champ d’exploration et aider les chercheurs à obtenir plus rapidement des résultats corrects ».
Or un chercheur n’est pas formé pour sortir de son cerveau des réponses à des questions très compliquées comme les QCM utilisés dans certains benchmarks de LLM ou à aider des chercheurs séniors à réfléchir.
Des témoignages recueillis par OpenAI présentés comme un article scientifique
Le billet d’OpenAI sur l’ « accélération de la science » avec GPT-5 s’appuie sur un texte cosigné par Sébastien Bubeck. Présenté comme un article scientifique (même mise en page et présentation, mis en ligne sur arXiv après l’avoir d’abord été sur les serveurs d’OpenAI [PDF]), il réunit surtout des témoignages de chercheurs en mathématiques, physique ou biologie sélectionnés par l’entreprise qui expliquent comment ils ont utilisé GPT-5 dans leur recherche.
Si les entreprises d’IA générative ont pris l’habitude de mettre en ligne des articles de leurs chercheurs (sur leur site ou sur des serveurs de prépublication comme arXiv), celui-ci se distingue sur le sujet du texte. Ici, pas question de dévoiler un nouveau modèle accompagné de ses caractéristiques techniques. Il diffuse des avis de chercheurs sans information sur une éventuelle méthode scientifique avec laquelle auraient été recueillis les témoignages. Six des douze cas impliquent des chercheurs d’OpenAI (dont trois de Sébastien Bubeck lui-même).
Deux des cas évoqués dans le texte concernent des problèmes de mathématiques posés par le mathématicien Paul Erdős. « Outre la publication de plus de 1 500 articles mathématiques, Erdős a posé un nombre considérable de conjectures mathématiques, dont plusieurs sont devenues des problèmes centraux en mathématiques », explique l’article.
Des résultats déjà grandement dégonflés par la communauté
En octobre dernier, sur X, Sébastien Bubeck avait proclamé que « deux chercheurs ont trouvé des solutions à 10 problèmes de Erdős pendant le week-end avec l’aide de GPT-5 ». Comme l’expliquait Gary Marcus, le chercheur d’OpenAI a ensuite supprimé son message. En effet, il a ensuite précisé « seules des solutions ont été trouvées dans la littérature [scientifique], et je trouve que ça accélère beaucoup les choses parce que je sais que c’est difficile de faire des recherches dans la littérature ». Cette anecdote avait engendré quelques persiflages de la communauté, notamment de la part de Yann LeCun.
Dans leur texte présenté comme un article scientifique, les chercheurs d’OpenAI présentent quand même l’utilisation de leur modèle pour la recherche bibliographique concernant certains problèmes de Erdős.
Pour l’un d’entre eux (le 848e problème de Erdős), ils fournissent une solution mathématique formelle qu’ils auraient trouvée, en s’aidant donc du modèle d’OpenAI. Il en reviendra à des mathématiciens de se prononcer sur la qualité de cette proposition. Dans ce témoignage, ils affirment que cet exemple « met en évidence la capacité du GPT-5 à servir d’assistant mathématique efficace, capable de rappeler des lemmes pertinents, d’identifier des analogies et de localiser des résultats pertinents à partir d’indications vagues et mal spécifiées ». Cependant, ils remarquent des limites importantes, notamment sur « une confiance excessive dans la puissance des méthodes existantes […] car cette discussion est largement absente de la littérature mathématique elle-même ».
Le texte mis en ligne par les chercheurs d’OpenAI aborde aussi quelques critiques de l’utilisation des LLM dans la recherche, comme les hallucinations des références scientifiques. Ainsi Timothy Gowers y témoigne que, selon lui, « GPT-5 semble significativement meilleur que GPT-4 » à ce sujet. Le mathématicien, chercheur au Collège de France et à Cambridge, y affirme qu’ « avec GPT-5, mon expérience m’a montré que les références sont rarement imaginaires, et même les hallucinations peuvent s’avérer être des indications vers des références qui existent et qui sont utiles », mais aucune analyse chiffrée n’y est effectuée.
Rappelons que même en dehors de la communauté scientifique, une semaine après sa sortie, GPT-5 essuyait les mêmes critiques que ses prédécesseurs sur ses réponses à de simples questions logiques ou mathématiques.
