Données de l’Apple Watch en main, ChatGPT Santé livre un avis médical inquiétant
Depuis quelques jours, OpenAI permet à des utilisateurs triés sur le volet de connecter l’application Santé de leur iPhone à ChatGPT. L’objectif : fournir des renseignements médicaux ultra-personnalisés. Un chroniqueur du Washington Post a fait un essai en important l’intégralité de ses données, soit 29 millions de pas et 6 millions de mesures de fréquence cardiaque collectées au fil des années par son Apple Watch.
Geoffrey A. Fowler a notamment demandé à ChatGPT un bilan global de sa santé cardiovasculaire. Verdict : un F, la pire note possible. Cela a inquiété le chroniqueur, qui a envoyé le rapport de ChatGPT à son médecin traitant.
A-t-il vraiment une mauvaise santé cardiaque ? « Non », lui a répondu son médecin. C’est même tout le contraire, puisque son risque d’infarctus est si faible que son assurance refuserait probablement de financer des examens supplémentaires pour démontrer que l’IA se trompe.

Le chroniqueur a ensuite présenté le bilan de ChatGPT à un cardiologue et spécialiste reconnu de l’usage de l’IA en médecine. « C’est sans fondement. Ces données ne sont pas prêtes à servir de base à un avis médical », lui a répondu le docteur Eric Topol. OpenAI multiplie bien les avertissements précisant que ChatGPT ne remplace pas un médecin et ne pose aucun diagnostic. Mais dans les faits, l’outil n’a pas hésité à livrer une analyse détaillée de la santé cardiaque du cobaye.
De battre mon cœur s'est arrêté
Alors comment expliquer une telle erreur ? Geoffrey A. Fowler raconte qu’après avoir connecté son app Santé à ChatGPT, il a d’abord demandé des recommandations générales et un signalement d’éventuels problèmes. L’IA lui a alors suggéré de consulter un médecin au sujet d’une « augmentation notable » de sa fréquence cardiaque au repos, tout en le félicitant pour la qualité de son sommeil et son niveau d’activité.
C’est ensuite que le chroniqueur a sollicité une note synthétique pour sa santé cardiaque. ChatGPT a répondu « F ». Interpellé, l’assistant a nuancé sa position :
- Utilisateur : « Pensez-vous vraiment que ma santé cardiaque et ma longévité méritent une mauvaise note ? »
- ChatGPT : « En bref : non. Je ne pense pas que vous soyez un cas désespéré, et je suis désolé que les notes brutes vous aient paru sévères. Il s'agissait d'une évaluation sommaire, basée uniquement sur les données de l'appareil. »
ChatGPT a alors expliqué qu’une évaluation plus pertinente serait possible en croisant ces données avec le dossier médical, une option disponible aux États-Unis. Le chroniqueur a accepté, puis reposé la question. La note est remontée… à D. En comparaison, Claude, un autre assistant proposant un service similaire, lui a attribué un C moins alarmiste.
Malgré l’accès à des données clés comme le poids, la tension artérielle ou le taux de cholestérol, ChatGPT a fondé une large part de son jugement négatif sur la VO₂max, un indicateur de la capacité maximale d’absorption d’oxygène à l’effort. Or, selon des chercheurs indépendants, l’Apple Watch sous-estimerait cette valeur d’environ 13 % en moyenne. L’IA s’est aussi appuyée sur la variabilité de la fréquence cardiaque, une mesure que le cardiologue juge très imprécise.
VO₂max : une mesure qui peut sauver… quand elle n’est pas détraquée
Autre écueil : en demandant un graphique de sa fréquence cardiaque sur dix ans, le collaborateur du Washington Post a constaté des ruptures nettes à chaque changement de modèle d’Apple Watch, suggérant des différences de calibration entre générations. ChatGPT a interprété ces variations techniques comme des signaux de santé.
Au-delà du volet cardiovasculaire, Geoffrey A. Fowler a remarqué que ChatGPT oubliait régulièrement des informations pourtant essentielles le concernant, comme son âge, son sexe ou certains paramètres récents. OpenAI se défend en soulignant que ChatGPT Santé est déployé très progressivement, via une liste d’attente, précisément pour corriger ce type de problèmes avant une généralisation.

Tout n’est cependant pas à jeter. Le chroniqueur a apprécié la capacité de l’outil à générer des graphiques à partir de ses données Apple Watch et à répondre à des questions peu sensibles, par exemple sur l’évolution de son niveau d’activité après la naissance de ses enfants.
Le véritable problème, selon lui, c’est que « ChatGPT répond avec une telle assurance qu’il est difficile de distinguer les bonnes réponses des mauvaises. » C’est une faiblesse historique des IA génératives qui est relativement bénigne lorsqu’il s’agit d’une recette de cuisine, encore que, mais évidemment préoccupante lorsqu’il est question de santé.
Malgré les efforts d’OpenAI, qui affirme avoir travaillé avec des scientifiques sur ChatGPT Santé, le cardiologue Eric Topol juge le résultat « très décevant. » Il s’attendait à un modèle plus sophistiqué, réellement capable de croiser et contextualiser des données personnelles complexes.
Apple, de son côté, affirme ne pas avoir collaboré directement avec OpenAI sur ce projet, une manière de se distancier de diagnostics imprécis, voire erronés. Mais la firme de Cupertino ne resterait pas inactive sur le sujet et pourrait bientôt lancer son propre service dédié, Health+.
A quoi ressemblera Health+, le service santé d’Apple ?