☕️ Copyright : NVIDIA a contacté Anna’s Archive pour entrainer ses IA sur des millions de livres
NVIDIA serait entrée en contact avec les responsables de la « bibliothèque clandestine » Anna’s Archive selon des documents d’un procès en cours contre l’entreprise.
En mars 2024, NVIDIA a été attaquée par cinq auteurs de livres pour violation du copyright pour avoir entrainé ses modèles sur une compilation de livres dans laquelle apparaissent leurs textes.
Notamment, ces auteurs pointaient l’utilisation de « bibliothèques clandestines » comme Anna’s Archive.
Dans un texte ajouté au dossier, les avocats des auteurs citent plusieurs documents internes à NVIDIA montrant que l’entreprise a contacté le projet Anna’s Archive. « À la recherche désespérée de livres, NVIDIA a contacté Anna’s Archive, la plus grande et la plus effrontée des bibliothèques clandestines encore existantes, afin d’acquérir ses millions de documents piratés et « d’inclure Anna’s Archive dans les données de pré-entraînement de nos LLM » », rapporte TorrentFreak. L’entreprise a contacté les responsables de la bibliothèque clandestine pour obtenir un « accès à de grands volumes de jeux de données uniques et de haute qualité » en éclaircissant si besoin était leur demande avec la précision « c’est-à-dire des livres ».

« Comme Anna’s Archive facturait des dizaines de milliers de dollars pour un « accès haut débit » à ses collections piratées voir https://annas-archive.org/llm, NVIDIA a cherché à savoir à quoi ressemblerait un « accès haut débit » à ces données », explique le document associé à la plainte [PDF].
Toujours selon les avocats des auteurs, l’équipe de management de NVIDIA aurait donné le feu vert à cette utilisation alors qu’Anna’s Archive avait bien précisé la nature illégale de ses collections.