À table avec une longue cuillère ?
Alors que Wikipédia fête ses 25 ans, la fondation Wikimedia en profite pour mettre en avant son programme « Enterprise » et les accords qu’elle vient de signer avec des entreprises majeures de l’IA générative telles qu’Amazon, Meta, Microsoft, Mistral AI ou Perplexity. Des accords qui lui permettent de canaliser le nombre énorme de requêtes effectuées par les bots crawlers d’IA générative sur ses infrastructures.
Hier, Wikipédia fêtait ses 25 ans. « Avec des milliards de visites mensuelles et un nombre toujours croissant d’organisations qui s’appuient sur les connaissances gratuites et vérifiées de Wikipédia, cette plateforme est devenue partie intégrante de l’architecture de l’ensemble de l’Internet », déclarait à cette occasion Maryana Iskander, directrice générale de la Fondation Wikimédia.
Le lendemain de cet anniversaire, cette même fondation annonce avoir conclu des accords avec les entreprises d’IA générative Amazon, Meta, Microsoft, Mistral AI et Perplexity pour son programme « Wikimedia Enterprise ».
Une saturation des infrastructures de Wikimédia qui demande un changement d’utilisation
Depuis le début des modèles de langage, le contenu de Wikipédia est crucial pour leur entrainement. L’encyclopédie participative permet à toutes ces entreprises de s’appuyer sur d’importantes masses de données créées par des humains. Elle est à la fois une source énorme d’exemples d’écriture et d’informations mises à jour régulièrement couvrant un spectre encyclopédique.
L’adoption par Wikipédia de la licence Creative Commons by-sa en 2009 rend les choses encore plus simples pour la réutilisation de ses contenus (la question de la citation des auteurs dans les outils d’IA générative se pose néanmoins). Ainsi, en 2020, GPT-3 d’OpenAI s’appuyait déjà sur trois milliards de tokens venant de la version anglophone de l’encyclopédie.
Mais depuis, les modèles de langage sont sortis des laboratoires et les entreprises en mettent de nouveaux sur le marché toutes les semaines. De plus, l’utilisation généralisée du RAG (ou génération à enrichissement contextuel en français), technique qui permet d’optimiser leur réponse sans relancer un processus d’entrainement, augmente considérablement le nombre de requêtes envoyées aux sites qui peuvent rafraichir les informations contenues dans le modèle. Ces requêtes envoyées par les robots crawlers des entreprises d’IA saturent régulièrement les infrastructures de certains sites. Et Wikipédia en fait évidemment partie.
En avril 2025, la fondation Wikimedia tirait un signal d’alarme : « Notre infrastructure est conçue pour supporter des pics soudains de trafic d’origine humaine lors d’événements très intéressants, mais le volume de trafic généré par les robots scrapeurs est sans précédent et présente des risques et des coûts croissants », expliquait-elle. Surtout que certaines entreprises d’IA générative ne respectent pas les fichiers robots.txt qui sont censés permettre de donner des instructions aux robots crawlers comme leur interdire l’accès.
Plusieurs API et une volonté d’utiliser le programme pour mieux gérer les citations
Le programme Enterprise permet à la fondation de rediriger les entreprises d’IA vers des API qui gèrent mieux leurs accès au contenu. Elle en propose plusieurs : l’API On-demand renvoie la version la plus récente pour une demande d’article spécifique, l’API Snapshot fournit Wikipédia sous forme de fichier téléchargeable pour chaque langue, mis à jour toutes les heures, et l’API Realtime diffuse les mises à jour dès qu’elles se produisent.
En octobre dernier, la fondation expliquait que l’encyclopédie perdait 8 % de pages vues par les humains en un an et mettait ça sur le compte de l’IA. À cette occasion, elle s’émeuvait d’un risque d’une baisse de la participation au projet. Car si les internautes ne savent pas que les contenus générés par IA sont tirés en grande partie de Wikipédia et qu’ils ne la consultent plus, il est possible qu’ils ne voient plus l’intérêt d’y participer. La fondation expliquait à ce moment-là que son programme « Enterprise » devait pousser aussi les entreprises d’IA à attribuer correctement les contenus.
« Wikipédia est un élément essentiel du travail de ces entreprises technologiques, qui doivent trouver comment le soutenir financièrement », explique Lane Becker, président de Wikimedia Enterprise à Reuters. « Il nous a fallu un certain temps pour comprendre quelles étaient les fonctionnalités et les caractéristiques à proposer si nous voulions faire passer ces entreprises de notre plateforme gratuite à une plateforme commerciale… mais tous nos grands partenaires technologiques comprennent vraiment la nécessité de s’engager à soutenir le travail de Wikipédia », ajoute-t-il.
La fondation précise que ce ne sont pas les premiers accords dans ce sens avec d’importantes entreprises du monde de l’IA générative. Ainsi, Google, Ecosia, Nomic, Pleias, ProRata et Reef Media étaient déjà entrées dans son programme Enterprise.
Mais avec les cinq nouveaux accords, la fondation Wikimédia se lie économiquement de plus en plus avec ce milieu. Si leurs montants prennent une place significative dans son budget, des dents pourraient grincer au sein de la communauté Wikipédia. Rappelons que l’IA est un sujet sensible qui s’est un peu enflammé quand la fondation a voulu utiliser l’IA générative pour créer des résumés automatiques d’articles de l’encyclopédie.