ChatGPT Edu : les métadonnées de projets d’universitaires visibles par leurs collègues
IA pas très discrète
Lancé en 2024, ChatGPT Edu est une version spéciale pour les universités. Mais la configuration par défaut de l’outil expose les métadonnées de son utilisation dans certains projets à des milliers de personnes sans que les enseignants-chercheurs le sachent.
Les entreprises d’IA générative ont commencé depuis quelque temps à proposer des offres spéciales universités. En mai 2024, OpenAI sortait par exemple son offre « ChatGPT Edu ».
En France, comme nous l’expliquions, « un service d’accès à une IA générative souveraine, développé avec Mistral et opéré sur les datacenters de l’ESR » a été lancé fin janvier en expérimentation par l’Amue, une agence de mutualisation de services numériques pour les universités et autres établissements de l’enseignement supérieur.
Mais des établissements d’enseignement supérieur, l’Université d’Harvard en tête de liste mais aussi en France l’ESCP Business School, ont pris un abonnement chez le leader de l’IA générative.
Pour vanter son produit, OpenAI cite le directeur du système d’information (DSI) de l’université de l’État de l’Arizona : « Le lancement du produit éducatif d’OpenAI, ChatGPT Edu, revêt une importance capitale. Il nous aide à protéger la vie privée de nos étudiants, à protéger nos résultats de recherche qui constituent notre propriété intellectuelle, et répond à nos exigences en matière de sécurité ».
Des métadonnées permettant d’en savoir plus sur les projets en cours
Mais, selon des chercheurs d’Oxford interrogés par le média économique américain Fast Compagny, certaines informations concernant l’utilisation de ChatGPT Edu dans les universités ne sont pas si bien protégées que ça.
Cela concerne plus précisément l’utilisation de Codex via ChatGPT Edu. Si aucun code ou dépôt de données n’est accessible à des personnes non-autorisées, certaines métadonnées sont visibles par des milliers de collègues sans que cela soit notifié clairement aux utilisateurs.
« Tout le monde à l’université, ou du moins un grand nombre de personnes, moi y compris, peut voir de nombreux projets sur lesquels [des gens] ont travaillé avec ChatGPT », explique le chercheur de l’université d’Oxford Luc Rocher à Fast Company.
Luc Rocher explique qu’il peut accéder à des métadonnées comme le nombre de fois qu’un utilisateur a interagi avec ChatGPT dans un projet ou sa date de début. De ces métadonnées, il a pu déduire qu’un étudiant d’Oxford travaillait sur la soumission d’un article scientifique en utilisant ChatGPT Edu (l’étudiant a ensuite confirmé). Le chercheur a signalé le problème à OpenAI et à son université mais, insatisfait de la réponse, il a choisi d’en parler à nos confrères.
Une mauvaise configuration par défaut
Interrogé par Fast Company, OpenAI assure que « les utilisateurs ont un contrôle total sur la manière dont leurs environnements sont partagés. Les noms des dépôts ne peuvent être visibles par les autres membres de la même organisation que si le propriétaire de l’espace de travail en décide ainsi, et le contenu des dépôts reste sécurisé ».
Mais pour Luc Rocher, « il semble que ça soit une question d’une mauvaise configuration par défaut » et d’un manque d’information sur celle-ci.
Même si les métadonnées ne sont pas accessibles à l’extérieur de l’université, celle-ci regroupe des dizaines de milliers de personnes. « " En ce qui concerne l’étendue des personnes qui peuvent accéder aux données comportementales les unes des autres, cela est assez préoccupant », estime un chercheur de l’université qui a requis l’anonymat.
L’université d’Oxford n’a pas voulu faire de commentaires. Selon nos confrères, la même configuration serait en place dans d’autres universités (sans citer leurs noms).
« Je pense que c’est quelque chose dont les universités doivent être conscientes », explique Luc Rocher. « Bien que l’on ne sache pas exactement quelle quantité de données est exposée par défaut par OpenAI, il est clair que la manière dont ces systèmes sont intégrés rend visibles à la fois pour l’entreprise et pour l’ensemble de l’organisation des informations qui ne l’étaient pas auparavant », commente auprès de Fast Company, le chercheur Michael Veale en droit et politique des technologies à UCL.
