Nvidia prise à utiliser des œuvres piratées pour entraîner son IA
Dans la course à l’intelligence artificielle, tous les coups semblent permis, et bien souvent, c’est le créateur de contenus (façon industrielle de dire « artiste », histoire de ne pas trop lui donner d’importance) qui prend, comme le rapporte Dataconomy.

Si les LLM les plus connus viennent d’OpenAI, Anthropic, Meta ou encore Microsoft, Nvidia développe elle aussi ses propres versions. Sous le nom de NeMo, Retro-48B, InstructRetro ou encore Megatron, ces modèles lui permettent de donner des bases à ses clients, ou de faire des démonstrations convaincantes au public.
Et comme tous ses concurrents, Nvidia est bien obligée d’alimenter en données ses LLM... et le plus vite possible, vu la voracité des autres entreprises ! Mais aller vite autorise-t-il pour autant à se passer des règles les plus élémentaires, comme celles du droit d’auteur ?
C’est la question (semblant assez vite répondue) que pose un collectif d’auteurs à la justice américaine en poursuivant Nvidia pour utilisation d’œuvres piratées afin de nourrir ses LLM. En effet, l’entreprise de Jensen Huang aurait décidé de prendre de gros raccourcis en faisant appel à Anna’s Archive : si le nom est très peu connu du grand public, cette entité est responsable du piratage massif de nombreuses archives de livres en tout genre, faisant ouvertement fi du droit d’auteur, prétextant que celui-ci est nuisible à la connaissance.
Anna’s Archive, à la tête d’un beau pactole de 500 To de données environ, a ainsi été contactée par un membre de la data strategy team de Nvidia, afin d’avoir un accès le plus rapide possible à la base de données. L’entité aurait positivement répondu à Nvidia, en monnayant l’accès rapide demandé à plusieurs dizaines de milliers de dollars.
Prise la main dans le pot de confiture, Nvidia va donc devoir s’expliquer devant la justice. La situation est d’autant moins à l’avantage du créateur de puces qu’Anna’s Archive a dans sa réponse clairement signalé à Nvidia que le contenu a été récupéré et maintenu illégalement : l’entreprise ne peut donc pas feindre l’innocence sur la provenance des données.
La plainte, si elle met en lumière les détails de la correspondance avec Anna’s Archive, indique que Nvidia ne s’est pas contentée de cette source : Books3, Libyen, Sci-Hub ou encore Z-Library ont été mis à contribution pour alimenter les LLM de la marque.
Pire, la plainte affirme que Nvidia a non seulement utilisé ces sources pour entraîner ses IA, mais a aussi fourni à certains gros clients les clés d’accès à ces sources illégales, notamment « The Pile », qui contenait les archives de Books3.
Le procès se déroulant aux USA, il est lancé sous forme de class action. Si pour le moment le nombre des auteurs faisant partie de celle-ci reste raisonnable, il pourrait augmenter rapidement, le collectif appelant les centaines de personnes flouées à se joindre à lui, afin de faire pression et demander réparation. Nvidia est un très gros morceau, mais la fuite des échanges entre l’entreprise et Anna’s Archive est terrible pour la firme, qui aura du mal à se dépêtrer de cette histoire sans y perdre quelques espèces sonnantes et trébuchantes...











