↩ Accueil

Vue normale

index.feed.received.yesterday — 3 avril 2025

Les crawlers des IA deviennent un sérieux problème pour le web, même pour Wikimédia

3 avril 2025 à 17:06
DDoS généré pour IA
Les crawlers des IA deviennent un sérieux problème pour le web, même pour Wikimédia

Pour entrainer et tenir à jour leurs intelligences artificielles, les crawlers des entreprises d’IA parcourent le web en permanence et sont suspectés de ne pas respecter les fameux robots.txt censés permettre leur blocage. Leur activité va jusqu’à mettre en péril des sites web de projets de logiciels libres ou toucher fortement les activités de Wikimédia.

Les entreprises qui ont mis en place des IA génératives comme OpenAI, Meta, Anthropic, Mistral ou encore Amazon, Google et Microsoft ont besoin d’indexer des contenus sur le web en permanence pour entrainer leurs grands modèles de langage (LLM), récupérer les nouvelles informations afin que leurs outils soient capables de répondre aux demandes de leurs utilisateurs.

Un trafic difficile à gérer, même pour la fondation Wikimédia

Mais en venant en permanence sur les sites web, ils ajoutent du trafic important à leur bande passante, au point de saturer certains. La fondation Wikimédia a publié un billet pour expliquer à quel point ces robots ont un impact sur ses projets : « Notre infrastructure est conçue pour supporter des pics soudains de trafic d’origine humaine lors d’événements très intéressants, mais le volume de trafic généré par les robots scrapeurs est sans précédent et présente des risques et des coûts croissants ».

En effet, ces entreprises récupèrent ces contenus à l’aide de « crawlers », des robots d’indexation, ou plutôt ici de récupération de données. OpenAI a officiellement donné le nom de son robot, GPTBot, en aout 2023, suscitant immédiatement la réaction de RSF qui a rapidement invité « tous les médias à configurer leurs sites pour éviter qu’OpenAI ne récupère leur contenu gratuitement ». C’est ce qu’ont fait beaucoup de sites web.

Un blocage pas si efficace

Pour cela, il « suffit » de lister dans le fichier robots.txt de son site les robots dont on ne veut pas. Mais, comme l’ont démontré récemment des chercheuses, certains robots récupèrent des informations de sites qui, pourtant, les ont ajoutés dans leurs listes. De plus, l’outil d’IA générative de Microsoft, Copilot, utilise BingBot, le robot d’indexation du moteur de recherche de l’entreprise. Un site qui voudrait bloquer l’IA de Microsoft ne serait plus indexé dans le moteur de recherche Bing.

Et, comme on l’a vu récemment, certains sites peuvent être visités 2 millions de fois par un bot en un trimestre. Il est déjà difficile pour des infrastructures comme celles de la Fondation Wikimédia de faire face à cet afflux « artificiel » pour gérer sa bande passante, mais ça l’est encore plus pour des projets qui ont moins de moyens.

Certains expriment leur ras-le-bol

Plusieurs responsables de projets de logiciels libres se sont plaints du problème, expliquait récemment ArsTechnica. Le développeur Xe Iaso a, par exemple, exprimé son ras-le-bol en janvier face au crawler d’Amazon : « À la personne qui gère AmazonBot, veuillez ajouter git.xeserv.us à votre liste de domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message et de lui demander de le transmettre à l’équipe d’AmazonBot » alors qu’il avait radicalement bloqué tous les robots dans son fichier robots.txt.

TheLibre.News a aussi recensé plusieurs infrastructures de logiciels libres touchés par ce problème. Le GitLab des développeurs de KDE a, par exemple, été touché par des crawlers ayant des IP détenues par Alibaba, ce qui l’a rendu temporairement inaccessible. L’un des administrateurs systèmes du projet Pagure de Fedora a, lui aussi, constaté un afflux massif de robots de récupération de données venant du Brésil. Il explique avoir décidé de bloquer temporairement toutes les IP brésiliennes pour en venir à bout tout en sachant bien que ce n’était pas une solution de long terme.

Gergely Orosz, qui publie la newsletter The Pragmatic Engineer, explique sur LinkedIn que le site d’un de ses projets personnels qui déclinait a reçu récemment un trafic important « lorsque le crawler AI de Meta et d’autres bots comme Imagesiftbot ont commencé à crawler le site sans réfléchir : ça a poussé le trafic à plus de 700Go par mois » alors qu’il était aux alentours de 100Go par mois un peu avant.

« Le site est hébergé sur Render où 500Go/mois sont inclus, au-delà c’est 30 $ pour 100Go. Ce mois-ci, je paie donc 90 $ pour l’entrainement de ces LLM », commente-t-il. Et lui aussi pointe que « l’ironie est que les robots – y compris Meta ! – ignorent manifestement le fichier robots.txt du site qui leur dit de « s’il vous plait, restez à l’écart » ».

Drew DeVault, le fondateur de la plateforme d’outils open source Source Hut, a publié un billet de blog le 17 mars dernier demandant aux entreprises d’IA génératives d’ « arrêter d’externaliser [leur] coûts directement sur [lui] ». « Au lieu de travailler sur nos priorités à SourceHut, j’ai passé entre 20 et 100 % de mon temps à atténuer les crawlers LLM hyper-agressifs », s’y lamente-t-il. Il explique que Source Hut subit des « dizaines de brèves pannes par semaine » et qu’il doit chercher tous les jours de nouvelles solutions pour ne pas voir la situation empirer. Le même jour, son entreprise expliquait que des crawlers de LLM continuaient à provoquer un DDoS sur SourceHut.

Des solutions pour piéger les crawlers d’IA

Elle expliquait avoir décidé de déployer Anubis pour essayer de bloquer les bots des entreprises d’IA. « Ce logiciel présente à certains utilisateurs un défi de preuve de travail qui est résolu par le navigateur de l’utilisateur à l’aide de JavaScript », explique SourceHut. C’est en fait une solution qu’a développé Xe Iaso après avoir publié son raz-le-bol.

D’autres solutions commencent à être développées, notamment en essayant de piéger les IA dans un labyrinthe de liens. Nepenthes, par exemple. Sa documentation explique que le logiciel « fonctionne en générant des séquences infinies de pages, chacune contenant des dizaines de liens, qui retournent simplement dans un piège ». Nepenthes ajoute des petits détails comme un délai ou une fausse apparence de fichiers statiques pour tromper le crawler.

De son côté, Cloudflare a aussi pensé à une solution de labyrinthe, explique-t-elle dans un billet de blog. Celle-ci « utilise du contenu généré par l’IA pour ralentir, embrouiller et gaspiller les ressources des AI Crawlers et d’autres robots qui ne respectent pas les directives « no crawl » ». L’entreprise, connue pour vendre des solutions pour augmenter la sécurité et les performances des sites internet, propose pour le moment à tous ses utilisateurs la possibilité d’activer gratuitement cette fonctionnalité.

L’Agence spatiale européenne alerte encore sur la prolifération des débris

3 avril 2025 à 10:55
Dirty space
L’Agence spatiale européenne alerte encore sur la prolifération des débris

Le rapport annuel de l’ESA sur l’environnement spatial alerte sur l’augmentation toujours plus importante du nombre de débris. Et l’orbite terrestre basse est de plus en plus encombrée. Pourtant, l’agence européenne constate une meilleure prise en compte des directives de réduction des débris spatiaux par les différents acteurs. Mais celle-ci va moins vite que l’augmentation du nombre de lancements.

L’ESA a publié son rapport annuel sur l’environnement spatial [PDF]. L’agence spatiale européenne y explique que le monde du spatial commence à prendre en compte le fait que « l’environnement orbital de la Terre est une ressource limitée » comme l’indiquait l’ONU en 2019 dans ses recommandations sur la durabilité de l’espace extra-atmosphérique.

Trop lents

Mais cette prise en compte est encore beaucoup trop lente. Nous augmentons moins rapidement le nombre d’objets en orbite autour de la Terre, mais nous l’augmentons toujours : « si la croissance exponentielle du nombre de nouvelles charges utiles s’est ralentie en 2024, le nombre de lancements a continué d’augmenter et, en termes de masse et de superficie, le nombre de lancements est toujours le plus élevé jamais enregistré jusqu’à présent ».

De la même façon, les directives établies pour pousser au désorbitage sont de mieux en mieux suivies mais ça ne va pas encore assez vite :

« Alors que l’adoption et le respect des pratiques de réduction des débris spatiaux au niveau mondial augmentent lentement, il est important de noter que la mise en œuvre réussie de l’un ou l’autre des seuils de durée de vie est encore trop faible pour garantir un environnement durable à long terme. Notamment, une partie de l’augmentation de l’adoption des mesures de réduction […] comme les rentrées contrôlées de corps de fusée ou les taux de réussite de l’élimination des charges utiles en orbite terrestre basse après la mission, est liée au déploiement et à la mise hors service de grandes fusées et d’engins spatiaux de grande taille », explique l’agence européenne.

Des politiques mises en place mais un futur incertain aux États-Unis

C’est d’ailleurs en ce sens qu’elle a augmenté ses exigences en 2023, avec un objectif « zéro débris » d’ici à 2030. L’ESA s’engageait à :

  • limiter la quantité de débris spatiaux créés par les opérations normales ;
  • réduire au minimum le risque de désintégration en orbite ;
  • prévenir les collisions en orbite ;
  • mettre en œuvre l’élimination après la mission.

Du côté américain, la FCC infligeait en 2023 sa première amende pour mauvais désorbitage. Mais la nouvelle administration Trump et la suppression de l’indépendance de l’agence américaine qui régule les satellites risquent de changer la donne.

Autant de débris que de satellites actifs sur l’orbite terrestre basse

« Le nombre de débris spatiaux en orbite continue d’augmenter rapidement. Environ 40 000 objets sont actuellement suivis par les réseaux de surveillance de l’espace, dont environ 11 000 sont des charges utiles actives », explique l’agence.

Elle ajoute qu’il y en a beaucoup en orbite qui pourraient causer des accidents : « le nombre réel de débris spatiaux d’une taille supérieure à 1 cm – suffisamment grands pour être capables de causer des dommages catastrophiques – est estimé à plus de 1,2 million, dont plus de 50 000 objets d’une taille supérieure à 10 cm ».

L’orbite terrestre basse est celle qui inquiète le plus l’agence. Elle fait remarquer qu’ « à environ 550 km d’altitude, le nombre de débris constituant une menace est aujourd’hui du même ordre de grandeur que celui des satellites actifs ».

index.feed.received.before_yesterday

L’usage « inconséquent » du « style Ghibli » généré par OpenAI par les politiques

31 mars 2025 à 17:03
« Le vent se lève, il faut tenter de vivre »
L’usage « inconséquent » du « style Ghibli » généré par OpenAI par les politiques

Des politiques ont surfé sur la vague d’images générées par IA au style très proche de celui de Hayao Miyazaki, utilisé par OpenAI pour faire la promotion de son nouveau modèle. Du RN à Renaissance en passant par LFI, plusieurs s’en sont aussi servi pour leur propre promotion, celle d’autres personnalités de leurs mouvements ou d’actions politiques.

Des personnalités politiques ont diffusé en fin de semaine dernière des portraits d’eux-mêmes ou des illustrations de communication politique surfant sur la vague d’images générées par le modèle 4o Image Generation d’OpenAI. Elles reprenaient le style de Hayao Miyazaki et de ses collègues du studio Ghibli.

L’incarnation de la Protection Civile par une image générée par une IA

Ainsi, Emmanuel Macron a publié samedi soir sur Twitter, un message sur la Protection Civile. Mais, pour illustrer les 32 000 bénévoles qui « veillent, secourent, forment et protègent » et à qui il adresse la phrase « vous incarnez le faire Nation et la Fraternité », le président de la République a préféré illustrer cette « incarnation » par une image générée par IA reprenant un style manga.

Gabriel Attal avec un mouton, Manon Aubry le poing levé ou Marine Le Pen sur le perron de l’Élysée

D’autres personnalités politiques ont, en fin de semaine, publié sur leurs réseaux sociaux des images de ce style : l’ancienne porte-parole du gouvernement et députée Renaissance Prisca Thevenot, et le Secrétaire général du même parti, Gabriel Attal, n’ont pas résisté à l’autopromotion.

Manon Aubry a, elle aussi, publié sur son compte Instagram des images la mettant en scène, dont l’une avec le leader de son mouvement, Jean-Luc Mélenchon. Mais finalement, la députée européenne LFI a peu de temps après supprimé ces images de son compte, alors que des utilisateurs du réseau social critiquaient cette utilisation. Le même week-end, le think tank Institut La Boétie de LFI proposait un colloque intitulé « L’intelligence artificielle, un nouveau champ de batailles ».

Du côté du RN, le député Alexandre Sabatou, qui se présente sur son compte X « pour une IA française et souveraine », a publié mardi 26 sur Twitter une image du même style mettant en scène Marine Le Pen montant les marches du perron de l’Élysée. C’était avant que Marine Le Pen soit condamnée pour détournement de fonds publics à deux ans de prison ferme et cinq ans d’inéligibilité avec application immédiate dans l’affaire des assistants européens du FN.

« Inconséquence des politiques »

Pour la correspondante au Japon de Libération, Karyn Nishimura, cette vague de communication exprime une « étrange inconséquence des politiques français postant des pseudo-images Ghibli générées via OpenAI ». Karyn Nishimura a, elle, bel et bien été l’héroïne du manga « Ivre du Japon », publié par son mari et auteur de mangas J.P. Nishi.

Pour Karyn Nishimura, « la question est éthique plus que juridique ». Elle dénonce le fait qu’OpenAI « ne voit aucun problème moral à entraîner sans vergogne son IA avec des œuvres de renom pour mieux commercialiser sa technique » mais aussi « que des personnalités politiques trahissent leur devoir en adressant aux artistes déjà démoralisés le pire des messages : « On peut se passer de vous, qui plus est avec des outils qui pillent votre travail. » ».

Finalement, après avoir laissé entendre que son entreprise maitrisait très bien la communication autour de cette vague d’images, Sam Altman a encore joué sur le storytelling d’un usage dépassant ses attentes. Après avoir tweeté un message demandant aux utilisateurs de se calmer, il a restreint la génération d’images aux comptes payants de son chatbot. Il a ainsi fait baisser, par la même occasion, la vague d’images au style Ghibli qui aura déferlé sur les réseaux sociaux pendant une semaine.

IA, consentement et pixels espion : la CNIL veut renforcer son « droit souple »

31 mars 2025 à 10:05
Souplesse avec nos données
IA, consentement et pixels espion : la CNIL veut renforcer son « droit souple »

L’autorité de protection des données revendique promouvoir « un juste équilibre entre la voie répressive et l’accompagnement ». En ce sens, elle indique qu’elle publiera en 2025 des documents destinés à aider les professionnels dans leur mise en conformité au RGPD concernant notamment l’IA, la santé, le consentement multi terminaux et les pixels espion.

La CNIL l’a déjà dit, elle veut une « innovation responsable » et n’envisage pas son rôle comme une autorité de répression : elle le martèle depuis longtemps, elle veut promouvoir « un juste équilibre entre la voie répressive et l’accompagnement ».

Pour cela, elle crée régulièrement des documents dits « de droit souple » : des référentiels, des recommandations, des lignes directrices, des guides pratiques, etc. Pour 2025, l’autorité annonce concentrer ces contenus « de droit souple » sur quelques thématiques connues à l’avance « pour que les professionnels concernés puissent se préparer aux concertations ou aux consultations à venir », explique-t-elle.

Encore et toujours l’IA

D’abord, et ça n’étonnera que les personnes qui ne se sont pas connectées à Internet depuis trois ans, elle veut poursuivre ses travaux « de clarification afin d’aider les professionnels à concilier innovation et respect des droits des personnes pour un développement innovant et responsable de leurs systèmes d’IA ». Bref, l’autorité va proposer des fiches sur la bonne façon de citer l’intérêt légitime dans les CGU des modèles d’IA pour être en règle avec le RGPD. Elle proposera aussi des fiches sur leur sécurisation et leur annotation.

Elle va aussi publier des conseils concernant le déploiement des IA dans le secteur de l’éducation, du travail et des collectivités locales.

Sous-traitants, assouplir l’utilisation des données de santé et clarification sur l’octroi de crédit

Pour aider les entreprises à faire respecter le RGPD par leurs sous-traitants, l’autorité construit plusieurs référentiels. La CNIL espère que les entreprises s’en saisiront et qu’elle n’aura donc pas à enquêter puis sanctionner ensuite. C’est pourtant un sujet déjà ancien et l’autorité a déjà dû infliger des amendes à des entreprises comme Darty, Infogreffe ou encore Pap.fr pour négligence auprès de leurs sous-traitants. Elle a mis en place une consultation publique sur le sujet qu’elle a clôturée fin février et va maintenant construire la version définitive de son référentiel.

La CNIL veut aussi mettre à jour ses référentiels sur les traitements de données de santé. Alors qu’elle exige actuellement une demande d’autorisation préalable auprès d’elle, l’autorité affirme vouloir modifier son parcours concernant le traitement de ces données en s’appuyant sur la base d’une déclaration de conformité. Elle explique vouloir s’adapter aux demandes des acteurs et aux pratiques professionnelles dans le secteur de la recherche en santé exprimées lors de la consultation publique qu’elle a menée en 2024.

L’autorité planifie aussi de publier un référentiel sur l’octroi de crédit par les banques, alors que celles-ci s’appuient de plus en plus sur des algorithmes utilisant les données de leurs (futurs) clients pour prendre leurs décisions.

Enfin deux référentiels sur la conservation des données sont au planning de cette année pour les activités commerciales et marketing et pour celles des ressources humaines.

Le consentement se fait-il pour tous les terminaux utilisés ?

L’autorité affiche sa volonté de renforcer ses textes de recommandation sur le consentement multi terminaux. En effet, la multiplication des appareils pour chaque utilisateur fait qu’on peut très régulièrement être connecté avec un même compte sur différents appareils. Mais, est-ce qu’en acceptant des conditions sur l’un d’eux (comme le dépôt de cookies), on les accepte sur tous ? Est-ce qu’en me logguant sur mon téléphone personnel, je donne le même consentement qu’en le faisant sur mon ordinateur professionnel ? Questions intéressantes auxquelles l’autorité veut s’atteler.

La CNIL veut aussi profiter de l’année 2025 pour publier un projet de recommandation concernant l’utilisation des pixels dans les courriels « dont l’usage est en forte croissance ». « L’objectif est de préciser les cas dans lesquels le consentement est nécessaire et guider les acteurs sur les modalités de son recueil », indique-t-elle.

Protéger les séniors et se pencher sur les dashcams

Elle veut aussi cibler le champ de l’économie des séniors, marché très « porteur » mais qui demande attention car le public peut être plus vulnérable. « La nature des données traitées et le ciblage en fonction de l’âge, notamment, soulèvent d’importants enjeux en matière de protection des données », affirme l’autorité.

Enfin, la CNIL veut se pencher sur les dashcams, les caméras embarquées dans les véhicules mis en place par certains automobilistes pour constituer des preuves en cas d’accident, lutter contre le vol ou diffuser des images spectaculaires sur les réseaux sociaux. Le « club conformité » mis en place par l’autorité et dédié aux acteurs du véhicule connecté et de la mobilité doit proposer des recommandations sur l’utilisation des ces caméras.

L’IA générative au renfort de la censure chinoise

28 mars 2025 à 15:02
Censure hyper moderne
L’IA générative au renfort de la censure chinoise

Une fuite de données montre qu’un système entraîné sur 133 000 exemples de messages étiquetés renforce le système de censure chinois, lui permettant d’aller bien au-delà d’une censure des principaux filtres mis en place au fil des années.

Le régime chinois censure depuis longtemps l’accès à Internet de toute personne se trouvant sur son territoire. Encore récemment, on apprenait que Facebook aurait créé un outil de censure pour pouvoir entrer dans ce marché, ou encore que des chercheurs chinois se servaient de Llama pour des usages militaires. Les modèles de langage peuvent aussi permettre au pays dirigé par Xi Jinping d’aller encore plus loin dans la surveillance des communications.

Un serveur non sécurisé

Sur Substack, une personne sous le pseudonyme de NetAskari expliquait en janvier avoir récupéré un jeu de données « fascinant » d’une taille d’environ 300 Go de fichiers JSON. Ceux-ci provenaient d’une base de données Elasticsearch stockée sur un serveur Baidu non sécurisé, précise TechCrunch qui a pu avoir accès aux fichiers. Le média américain ajoute que cela ne prouve pas l’implication de Baidu dans le projet, puisque la base peut provenir de n’importe quel client de l’entreprise.

« Chaque fichier comprend un prompt de classification ainsi qu’une chaîne de contenu correspondante, que j’appellerai la « cible de contenu ». L’entrée la plus récente de cette base de données est datée de décembre 2024 », ajoutait NetAskari.

Nos confrères expliquent que celle-ci « révèle que la Chine a mis au point un système d’intelligence artificielle qui renforce sa machine de censure déjà redoutable, allant bien au-delà des tabous traditionnels comme le massacre de la place Tian’anmen ».

133 000 exemples pour entrainer la censure

L’un de ces fichiers contient un prompt avec la définition d’un rôle du LLM lui donnant comme instruction : « en tant qu’analyste méticuleux des données d’opinion publique, tu dois analyser de manière exhaustive le contenu des articles et déterminer la catégorie à laquelle ils appartiennent. L’objectif final est de filtrer l’information pour le travail sur l’opinion publique, les informations importantes étant classées en trois catégories principales : « Dynamique sociale », « Dynamique politique » et « Dynamique militaire » ».

Ces catégories sont définies comme relatives à l’opinion publique et classées en priorités les plus hautes. D’autres catégories sont ensuite définies.

Il est accompagné par une collection de 133 000 exemples de contenus à trier. TechCrunch a publié un extrait de 10 que le média considère comme représentatif. On peut y voir un message déplorant la pauvreté rurale en Chine, un autre de la corruption systémique de la police, un autre soulignant la sévérité des restrictions militaires dans les mers de Chine orientale et méridionale, ou encore la volonté de la Chine d’intercepter les navires revendiquant la « liberté de navigation » dans le détroit de Taïwan.

« Les « contenus cibles » englobent un large éventail de sujets, y compris des titres d’actualité, des commentaires de type médias sociaux, des déclarations gouvernementales et des articles sur les voyages et les loisirs », précise NetAskari.

Peu d’informations ont été trouvées sur les origines de cette base de données. Mais le « travail sur l’opinion publique » fait référence à la propagande et à la censure et est supervisé par l’Administration du cyberespace de Chine, explique à TechCrunch le responsable du programme Asie de l’organisation de défense des droits Article 19, Michael Caster.

Pour la promotion de ses modèles, OpenAI se sert du style du réalisateur anti-IA Miyazaki

28 mars 2025 à 14:13
« Nous, les humains, perdons la foi en nous-mêmes »
Pour la promotion de ses modèles, OpenAI se sert du style du réalisateur anti-IA Miyazaki

Une vague d’images générées par IA au style très proches de celui de Hayao Miyazaki, ayant pourtant clairement exprimé son aversion pour l’intelligence artificielle dans la création artistique, a déferlé sur les réseaux sociaux ces derniers jours. En cause, la sortie du modèle 4o Image Generation d’OpenAI qui permet de créer facilement ce genre d’images. Le CEO de l’entreprise Sam Altman en joue sur les réseaux sociaux et s’enorgueillit d’avoir bien choisi les exemples initiaux pour présenter le modèle.

OpenAI a mis un coup de fouet à sa génération d’images en rendant GPT-4o multimodal. Celui-ci peut donc créer des images à la volée, comme beaucoup de ceux de ses concurrents, dont Grok qui est très utilisé pour ça, puisqu’il n’a aucun garde-fou.

Des mèmes et des scènes de films en anime

Pour lancer la promo et l’utilisation massive de son nouveau générateur, le CEO d’OpenAI, Sam Altman a, entre autres, twitté une image au style manga le représentant, posant avec deux de ses collègues comme des start-upeurs heureux de présenter leur nouveau projet :

Tweet de @sama :
this was a real labor of love from @gabeeegoooh
. congrats gabe; excellent work!

here is what we generated during the livestream:

Suivi d'une image générée par IA représentant dans un style manga 3 personnes reprenant les codes de manga et titrée « Feel the AGI ». La pause des trois reprend par contre les codes des startupers contents d'eux-mêmes se prenant en selfie.

On peut remarquer que la main de Gabriel Goh, au centre de l’image, est composée de quatre doigts seulement et celle de Sam Altman de six.

Depuis, de nombreuses personnes ont essayé la nouvelle fonctionnalité du modèle, devenu le générateur d’image par défaut dans ChatGPT pour les utilisateurs gratuits. Ils ont notamment essaimé les réseaux sociaux d’innombrables images dans le style du Studio Ghibli et de son co-créateur Hayao Miyazaki. Certains reproduisant des mèmes, d’autres des scènes iconiques de la culture populaire :

Storytelling bien ficelé

Surfant sur cette vague, le CEO d’OpenAI a repris la balle au bond. Il a rajouté une couche de storytelling en se peignant, dans un tweet, en ingénieur incompris qui, depuis une décennie, essaye « d’aider à créer une superintelligence pour guérir le cancer ou ce genre de chose » dont presque personne se soucie pendant des années puis qui est détesté par tout le monde « pour n’importe quoi », et qui se réveille un jour avec des centaines de messages lui montrant ce genre d’images utilisant le style du studio d’animation. L’homme d’affaires a même généré son propre avatar dans le style de Ghibli.

Miyazaki, connu pour son opposition à l’utilisation de l’IA dans l’animation

Si Sam Altman est autant fan du Studio Ghibli, il doit connaitre l’extrait du documentaire dans lequel Hayao Miyazaki exprime son opposition à l’utilisation d’une IA (non générative) pour faire de l’animation de modèles en 3D :

Le réalisateur s’exprimait sur les résultats d’une expérimentation particulière qui lui était montrée en la qualifiant d’ « insulte à la vie elle-même », mais il en concluait néanmoins de façon plus générale : « J’ai l’impression que nous approchons de la fin des temps. Nous, les humains, perdons la foi en nous-mêmes ». Le studio et le réalisateur n’ont, semble-t-il, pas encore réagi à cette vague de reproduction de leur style.

OpenAI assume ouvrir les vannes de la reproduction des styles de studio

À la réaction d’un utilisateur de X affirmant « honnêtement, openai est incroyablement chanceux que les vibrations positives de ghibli aient été la première utilisation virale de leur modèle et non une horrible absurdité deepfake », Sam Altman a laissé entendre que son entreprise maitrisait très bien la communication autour de cette vague de générations d’images reprenant le style du Studio Ghibli :

« Croyez-le ou non, nous réfléchissons beaucoup aux premiers exemples que nous montrons lorsque nous introduisons une nouvelle technologie ».

« Notre objectif est de donner aux utilisateurs autant de liberté créative que possible », a répondu OpenAI interrogé par 404 Media, ajoutant « Nous continuons à empêcher les générations dans le style des artistes vivants, mais nous autorisons des styles de studio plus larges que les gens ont utilisés pour générer et partager des créations originales de fans vraiment délicieuses et inspirées. Nous apprenons toujours de l’utilisation réelle et des commentaires, et nous continuerons à affiner nos politiques au fur et à mesure ». Et, en effet, les générations qui circulent ne mentionnent pas d’auteur mais bien le « style Ghibli ».

Rappelons qu’OpenAI n’en est pas à son premier coup concernant la reproduction de contenus de la culture populaire sans le consentement des artistes pour faire la promotion de son modèle GPT4-o : en mai 2024, l’entreprise avait utilisé une voix proche de celle de Scarlett Johansson qui avait interprété la voix de l’IA dans le film « Her ».

D’autres outils d’IA générative génèrent aussi des images d’œuvres protégées. En janvier 2024, Midjourney recrachait, entre autres, des images Pixar et parfois même sans qu’on le lui demande. L’artiste C215 expliquait que la copie, l’imitation, le plagiat, « c’est un débat vieux comme l’antiquité, dans le monde artistique ».

L’avocat Matthieu Quiniou affirmait : « si, en sortie, le résultat est reconnaissable, quand on fait « à la manière de » sans avoir demandé les droits à l’auteur, on produit de la contrefaçon ».

❌