☕️ Mistral aussi entraine ses IA sur des contenus dont elle n’a pas les droits
« Le plus grand vol de propriété intellectuelle de l’histoire. » Telle était la manière dont le directeur général de la Confédération internationale des éditeurs de musique (ICMP) décrivait en septembre 2025 la manière dont les plus gros éditeurs d’intelligence artificielle (IA) avait réussi à entraîner leurs modèles génératifs.
Et ces débats sur les travaux soumis aux droits d’auteur intégrés dans les bases d’entraînement de large language models (LLM, grands modèles de langage) reviennent en France : selon les travaux menés par Mediapart avec l’appui de Paul Bouchaud, chercheur·euse en post-doctorat au CNRS, le modèle Mistral Large 3 - 2512 de la société française contient notamment les incipits de Harry Potter à l’école de sorciers de J.K. Rowling, du Trône de fer de George R.R. Martin ou encore de 1984, de George Orwell.
Outre les incipits, Mediapart a interrogé l’outil de Mistral pour voir dans quelle proportion il recrachait des textes littéraires, potentiellement issus de LibGen. Base de données pirate, cette dernière a été utilisée par Meta pour entraîner son modèle Llama, notamment à l’instigation du cofondateur de Mistral Guillaume Lample.
Entre autres résultats, Mistral Large 3 a produit près des deux tiers du texte du Petit Prince, d’Antoine de Saint-Exupéry, et plus du tiers du premier tome de Harry Potter. Des chiffres qui tendent à démontrer le recours à ces textes dans l’entraînement du modèle.
De même, dans le domaine musical, Mistral Large 3 produit directement des éléments de chansons d’Elton John, Amel Bent ou Jacques Dutronc, tous engagés contre le recours à leurs textes pour entraîner des systèmes d’IA.

Auprès de Mediapart, Mistral évoque un « principe de réalité » selon lequel certains des contenus précités, « particulièrement populaires, sont répliqués à de nombreuses reprises sur Internet ».
Dans plusieurs cas, le média constate néanmoins que Mistral ne respecte pas les logiques d’opt-out, c’est-à-dire de refus d’alimenter les robots qui permettent aux constructeurs d’IA de récupérer des données en ligne. En effet, sur le site de Radio France comme sur celui de Mediapart, diverses versions de ce droit de retrait ont été appliquées – que ce soit via un fichier robots.txt ou via une mention explicite de refus de scraping dans les conditions générales d’utilisation.
D’après leurs gestionnaires, néanmoins, les robots crawlers de Mistral envoient tout de même des requêtes vers les sites des deux médias.