Next
☕️ Le fonds de capital-risque Sequoia prévoit une explosion de la bulle de l’IA 4 juillet 2024 à 12:12

☕️ Le fonds de capital-risque Sequoia prévoit une explosion de la bulle de l’IA

4 juillet 2024 à 12:12

L’un des plus importants fonds de capital-risque américain spécialisé en innovation, Sequoia, a publié un billet affirmant que « la bulle de l’IA atteint un point de rupture ». En s’appuyant sur les prévisions de revenus de NVIDIA, David Cahn, l’un des investisseurs et partenaires du fond, explique que cette bulle a atteint un tel niveau qu’elle aurait besoin de 600 milliards de dollars de retour sur investissement pour se maintenir.

Il n’explique pas pour autant que toutes les entreprises d’IA vont s’écrouler. Il reste même confiant sur le fait que « l’IA sera probablement la prochaine vague technologique transformatrice ». Mais il souligne que NVIDIA va continuer à améliorer ses GPU, que les prix des puces de dernières générations actuelles vont baisser et que chacun va devoir investir dans des puces toujours plus performantes.

Au final, pour David Cahn, « la baisse des prix des GPU est en fait favorable à l’innovation à long terme et aux start-ups. Si mes prévisions se réalisent, ce sont surtout les investisseurs qui en pâtiront ».

Next
Le Brésil interdit à Meta d’entrainer ses IA sur les données personnelles des Brésiliens 4 juillet 2024 à 09:52

Le Brésil interdit à Meta d’entrainer ses IA sur les données personnelles des Brésiliens

4 juillet 2024 à 09:52

Meta entrainement

Les logos de Facebook et Meta dans des carrés en 3D sur un fond grisé dégradé

L’autorité de protection des données brésilienne a décidé d’interdire l’utilisation des données personnelles des utilisateurs de Facebook et Instagram pour entrainer ses IA tel que le prévoit sa nouvelle « Politique de confidentialité ». Après avoir suspendu son projet dans l’Union européenne, l’entreprise de Mark Zuckerberg doit faire un trait sur l’exploitation des données des utilisateurs du quatrième pays du monde en nombre d’utilisateurs de Facebook.

L’Autoridade Nacional de Proteção de Dados (ANPD), la CNIL brésilienne, a publié mardi 2 juillet un communiqué expliquant qu’elle avait ordonné à Meta de suspendre immédiatement au Brésil sa nouvelle politique de confidentialité des données ainsi que l’utilisation des données personnelles que ce nouveau texte prévoyait pour entrainer les IA du groupe de Mark Zuckerberg.

Cette décision concerne l’un des pays dans lequel Meta est le mieux implanté. Il y a plus de 112 millions de comptes Facebook actifs et 134 millions de comptes Instagram actifs dans le pays, selon Statista, faisant du Brésil le quatrième pays le plus important pour Facebook et le troisième pour Instagram.

Mi-juin, l’entreprise avait décidé de « mettre sur pause » son projet dans l’Union européenne et l’espace économique européen soumis au RGPD, sous la pression des autorités européennes et d’une plainte de l’association noyb.

Risque imminent grave pour les droits fondamentaux

La décision de l’ANPD a été prise en raison d’un « risque imminent de dommages graves et irréparables ou difficilement réparables aux droits fondamentaux des personnes concernées », explique l’autorité brésilienne. L’autorité suspecte que le dispositif mis en place par Meta et autorisé par sa nouvelle politique de confidentialité viole la loi générale sur la protection des données brésilienne (Lei Geral de Proteção de Dados, LGPD).

L’ANPD impose à Meta de supprimer la section de sa nouvelle Politique de confidentialité correspondant au traitement des données à caractère personnel pour entrainer ses IA génératives et la suspension de tout traitement de données à caractère personnel au Brésil.

L’autorité a laissé 5 jours à l’entreprise pour réagir. Meta devra payer une amende forfaitaire symbolique si elle ne s’y plie pas, puisque l’ANPD l’a fixée à 50 000 réals, soit 8 500 euros.

Utilisateurs mal informés et mauvais cadre juridique

Dans un billet de blog publié en mai, Meta assurait qu’ « en vertu des lois locales en vigueur au Brésil, vous pouvez vous opposer à l’utilisation de vos informations provenant de nos produits et services pour développer et améliorer l’intelligence artificielle de Meta. Le formulaire d’objection est disponible dans notre centre de confidentialité ».

Mais dans son communiqué, l’ANPD explique avoir estimé que « l’entreprise n’a pas fourni les informations adéquates et nécessaires pour que les personnes concernées soient conscientes des conséquences possibles du traitement de leurs données personnelles pour l’entrainement de modèles d’IA générative ». Elle ajoute que, « bien que les utilisateurs puissent s’opposer au traitement des données à caractère personnel, il existait des obstacles excessifs et injustifiés à l’accès à l’information et à l’exercice de ce droit ».

Contacté par The Register, Meta a répondu que « l’entrainement d’IA n’est pas propre à nos services, et nous sommes plus transparents que bon nombre de nos homologues du secteur qui ont utilisé des contenus publics pour former leurs modèles et leurs produits ». Le porte-parole de l’entreprise interrogé réaffirme que l’approche de Meta « est conforme aux lois et réglementations brésiliennes en matière de protection de la vie privée, et nous continuerons à travailler avec l’ANPD pour répondre à leurs questions traitement de données personnelles sensibles au Brésil ».

Next
☕️ Google a augmenté ses émissions de CO2 de 48 % depuis 2019 3 juillet 2024 à 11:54

☕️ Google a augmenté ses émissions de CO2 de 48 % depuis 2019

3 juillet 2024 à 11:54

En 2023, la multinationale aurait augmenté ses émissions de CO2 de près de la moitié de ce qu’elle rejetait déjà en 2019, selon son propre rapport environnemental (PDF) commenté par le Financial Times. Google a produit 14,3 millions de tonnes équivalent CO2 en 2023.

Le journal économique fait remarquer que cette augmentation met en cause clairement l’engagement « net zero » de l’entreprise, qui prévoyait en 2021 d’avoir un bilan carbone neutre à l’horizon 2030.

L’entreprise explique aussi que la consommation totale d’électricité de ses data centers a augmenté de 17 % en 2023 par rapport à 2022 (celle-ci provenant toujours à 100 % d’énergies renouvelables selon elle).

Dans ce document, Google confirme que l’IA est une des causes principales de cette augmentation.

Elle y affirme aussi qu’il est difficile de prédire les conséquences environnementales futures de l’IA. Elle ajoute qu’au fur et à mesure de l’intégration de l’IA dans ses produits, la distinction entre l’IA et le reste n’aura plus grand sens, « nous nous concentrons donc sur les mesures concernant l’ensemble des data centers, car elles incluent la consommation globale de ressources (et donc l’impact environnemental) de l’IA » commente-t-elle.

Il sera dès lors encore plus difficile de savoir quelles seront les réelles conséquences de l’IA sur les émissions de l’entreprise.

Au Financial Times, la Responsable Développement durable de Google, Kate Brandt, explique que l’entreprise s’attend à ce que ses émissions augmentent encore « avant de redescendre vers notre objectif ».

En mai, Microsoft annonçait de son côté une hausse de ses émissions de 29 % depuis 2020.

Depuis 2020, les émissions de Microsoft ont augmenté de 29 %

Next
[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA 3 juillet 2024 à 09:15

[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA

3 juillet 2024 à 09:15

IA pas de consentement

Human Right Watch a analysé une partie de la base de données LAION-5B très utilisée pour entrainer des outils d’IA générateurs d’images. L’ONG s’est rendu compte qu’elle contiendrait des liens vers des photos d’enfants brésiliens et australiens sans leur consentement.

Mise à jour le 3 juillet 2024 à 9h15 : ajout de la partie sur les photos d’enfants australiens

Article original publié le 11 juin 2024 à 17h22 :

L’ONG Human right watch explique avoir repéré des photos personnelles d’enfants brésiliens dans la base de données LAION-5B. Créée par le professeur de lycée allemand Christoph Schuhmann, celle-ci a été notamment utilisée par Stable Diffusion et par Google pour entrainer leurs modèles d’IA génératives de text-to-image.

Comment LAION a créé un jeu d’images d’entraînement à partir de zéro

Une toute petite partie de la base de données explorée

Ces photos ne figurent pas en tant que telles dans la base de données. LAION-5B liste notamment des liens vers diverses photos mises en ligne et qu’elle associe à du texte. Elle s’appuie sur l’autre base de données Common Crawl qui parcourt internet et stocke les contenus trouvés.

La chercheuse de l’ONG, Hye Jung Han, a examiné une toute petite partie de LAION-5B (moins de 0,0001 % des 5,85 milliards d’images) mais a trouvé 170 photos d’enfants brésiliens venant d’au moins 10 États du pays.

Des photos de moments intimes

La plupart de ces photos n’ont été vues que par très peu de personne et « semblent avoir bénéficié auparavant d’une certaine intimité » explique Human Rights Watch, qui a vérifié en utilisant des moteurs de recherche.

L’ONG affirme que LAION, l’association allemande fondée par Schuhmann pour gérer la base de données, a confirmé l’existence des liens vers ces photos dans sa base de données et a promis de les supprimer. Mais elle a ajouté qu’il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l’internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Intelligence artificielle : la CNIL veut (re)concilier « innovation et respect des droits »

Dans une réponse à Wired, LAION a affirmé avoir supprimé les liens vers les contenus signalés par Human Right Watch. Mais un de ses représentants a ajouté que « la suppression des liens d’un ensemble de données LAION ne supprime pas ce contenu du web […] il s’agit d’un problème plus vaste et très préoccupant, et en tant qu’organisation bénévole à but non lucratif, nous ferons notre part pour y remédier ».

Selon l’association, les photos listées par LAION représentaient « des moments intimes comme des bébés naissant entre les mains gantées de médecins, des jeunes enfants soufflant les bougies de leur gâteau d’anniversaire ou dansant en sous-vêtements à la maison, d’élèves faisant un exposé à l’école et d’adolescents posant pour des photos à carnaval du lycée ».

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données. Ensuite, ces outils d’intelligence artificielle sont entrainés à partir de ces données et peuvent donc créer des images réalistes d’enfants ». Elle ajoute que « la technologie est développée de telle sorte que tout enfant qui possède une photo ou une vidéo de lui en ligne est désormais en danger, car n’importe quel acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour la manipuler à sa guise ».

LAION-5B plus accessible publiquement

Depuis décembre dernier, LAION-5B n’est plus accessible publiquement. L’association a pris cette décision car des chercheurs de Stanford ont identifié 3 226 liens vers des images pédocriminelles potentielles. « La plupart d’entre elles ont été identifiées comme telles par des tierces parties » expliquaient-ils.

Dans un communiqué sur son site, LAION affirmait qu’elle appliquait « une politique de tolérance zéro à l’égard des contenus illégaux et, dans un souci de prudence, nous retirons temporairement les jeux de données de LAION pour nous assurer qu’ils sont sûrs avant de les republier ».

Des photos d’enfants australiens utilisées

Hye Jung Han a aussi trouvé 190 photos d’enfants australiens dans LAION-5B, explique ce mardi 2 juillet l’ONG. Comme pour les photos des enfants brésiliens, celles-ci montrent des enfants dans toutes sortes de scènes de leur vie. Certains enfants australiens appartiennent à différents groupes aborigènes (Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri).

Ici encore, la plupart des photos n’étaient pas disponibles via une requête dans un moteur de recherche.
L’une d’elles provient même d’une vidéo YouTube dont l’utilisateur avait pourtant fait attention à la mettre en « non répertoriée ».

Les noms de certains enfants figurent parfois dans la légende de la photo ou dans l’URL de l’adresse stockée par LAION-5B. De plus, l’ONG assure qu’il est souvent facile de retrouver l’identité des enfants ainsi que le lieu et le moment de la photo.

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l’IA ».

Next
☕️ CriticGPT, le modèle d’OpenAI qui trouve les erreurs dans le code généré par GPT-4 28 juin 2024 à 16:30

☕️ CriticGPT, le modèle d’OpenAI qui trouve les erreurs dans le code généré par GPT-4

28 juin 2024 à 16:30

Jeudi, OpenAI a publié un billet de blog expliquant qu’elle avait créé un nouveau modèle concernant la génération de code par IA : CriticGPT. Ici, l’idée n’est pas de générer du code via un prompt, mais de trouver les erreurs dans du code généré par GPT-4.

L’entreprise assure qu’avec ce nouveau modèle, dans 60 % des cas, les personnes qui l’utilisent ont de meilleurs résultats qu’avec seulement GPT-4.

L’idée est d’améliorer les systèmes d’apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF). Ils permettent à des relecteurs humains d’améliorer la précision des sorties des grands modèles de langage.

Comme à son habitude, l’entreprise publie un « papier » déposé sur son propre serveur (PDF). S’il ressemble à un article scientifique, il n’est pas déposé sur un serveur de prépublication ni encore moins publié dans une revue scientifique.

Next
JFrog alerte sur les injections de code lors de l’utilisation de bibliothèques fondées sur des LLM 28 juin 2024 à 15:31

JFrog alerte sur les injections de code lors de l’utilisation de bibliothèques fondées sur des LLM

28 juin 2024 à 15:31

What could go wrong?

Vanna.AI est une bibliothèque Python qui permet de proposer des solutions text-to-SQL aux développeurs en s’appuyant sur des grands modèles de langage. Fin mai, l’entreprise de sécurité informatique JFrog y a détecté une vulnérabilité permettant d’injecter du code Python puis de le lancer. Pour les chercheurs de l’entreprise, le pre-prompting ne peut être utilisé comme seul mécanisme de sécurité quand les développeurs utilisent des grands modèles de langage.

L’équipe de recherche de l’entreprise de sécurité JFrog a annoncé avoir découvert fin mai dernier une faille critique (CVE-2024-5565) dans la bibliothèque Python Vanna.AI. Celle-ci propose aux développeurs une interface de conversion text-to-SQL utilisant l’IA générative, permettant de générer du SQL à partir de langage naturel. Son code est publié sur GitHub en licence MIT et la bibliothèque rencontre un certain succès.

Le pre-prompting, mécanisme de sécurisation très utilisé pour les LLM

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Next
La BNF : un réservoir de données pour les IA 27 juin 2024 à 14:24

La BNF : un réservoir de données pour les IA

27 juin 2024 à 14:24

Bibliathèque

Un consortium des trois startups de l’IA générative Artefact, Mistral AI et Giskard, en partenariat avec la Bibliothèque nationale de France (BNF) et l’Institut national de l’audiovisuel (INA), a été sélectionné par Bpifrance après un appel à projets nommé « Communs numériques pour l’intelligence artificielle générative ». L’idée est d’utiliser les données du domaine public rassemblées par ces deux institutions pour entrainer les IA de ces entreprises, sans pour autant leur en laisser l’exclusivité, nous explique la bibliothèque.

En mars dernier, les startups françaises d’IA générative Artefact, Mistral AI et Giskard, en se rassemblant dans le consortium ARGIMI, ont obtenu un financement de Bpifrance. Objectif, mettre en œuvre un projet bâti en partenariat avec deux très importantes institutions de la culture française : la Bibliothèque nationale de France (BNF) et l’Institut national de l’audiovisuel (INA), expliquait la semaine dernière Politico.

[Interview] Visite de la Bibliothèque Nationale de France, l’une des plus grandes ludothèques de France

Le projet financé ici, suite à un appel lancé en juin par Bpifrance, est de profiter des importants fonds conservés dans ces établissements. Leurs grands modèles de langage pourront être entrainés sur des masses de données venant notamment du domaine public, et très bien étiquetées, pour créer « un modèle en accessibilité ouverte utile à tous ».

Des outils « communs » d’IA

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Next
☕️ Scientifiques et universitaires se mobilisent contre l’extrême-droite 27 juin 2024 à 09:55

☕️ Scientifiques et universitaires se mobilisent contre l’extrême-droite

27 juin 2024 à 09:55

La communauté scientifique se mobilise pour ces élections législatives anticipées. La Société informatique de France (SIF) a publié une tribune rappelant les incohérences de l’extrême droite avec la démarche scientifique ainsi qu’avec « plusieurs des principes édictés par la « Déclaration universelle des droits de l’Homme et du citoyen » ».

Cette société savante, avec 500 adhérents physiques ainsi qu’une centaine de laboratoires membres à travers la France, ajoute que « l’accumulation des savoirs au profit de l’humanité ne peut prospérer que via une coopération mondiale, ouverte, et garantie par une liberté académique totale ». Elle appelle « avec la plus vive énergie à faire barrage à l’extrême-droite pour que notre pays demeure celui des Lumières, de la rationalité, de la liberté, de l’égalité et de la fraternité ».

L’association « Scientifiques en rébellion » appelle, elle, à « la mobilisation contre l’extrême droite ». Dans cette tribune signée par 2 500 scientifiques, dont les chercheurs en informatique Claire Mathieu et Jean-Christophe Soulié et les climatologues Valérie Masson-Delmotte et Christophe Cassou, appellent à lutter contre le Rassemblement national.

Le texte affirme que « l’accès au pouvoir de l’extrême droite fait non seulement peser des risques graves sur la recherche et l’enseignement, sur la place accordée aux faits scientifiques dans le débat public, mais elle menace surtout le modèle même de société auquel nous aspirons : une société démocratique où les décisions émergent de débats collectifs, ouverts, libres, respectueux et bien sûr informés ». Ils ajoutent que le « NFP n’est pas une menace pour la République ».

D’un côté plus institutionnel, le congrès de l’Université de Strasbourg a voté, explique le journal Les Dernières nouvelles d’Alsace, une motion qui s’oppose « à la mise en danger des valeurs de l’université, héritière de l’humanisme ».

Le texte affirme que « l’extrême droite est porteuse d’une idéologie qui s’attaque à cette liberté de pensée, qui veut contrôler à la fois la capacité des universitaires et des étudiantes et étudiants à s’exprimer et les sujets qu’ils et elles peuvent aborder, qui veut contrôler nos établissements pour l’accueil de talents et d’idées venant d’étudiants et étudiantes comme de chercheuses et de chercheurs étrangers. L’extrême droite veut aussi restreindre le nombre d’emplois publics, ce qui aura des effets délétères sur les missions de service public de l’enseignement supérieur et de la recherche ».

Si d’autres associations ou personnalités du secteur des sciences ou du numérique expriment leurs opinions, nous les relaierons bien évidemment. N’hésitez pas à nous les signaler.

Next
☕️ Teams : la Commission européenne soupçonne encore Microsoft d’abus de position dominante 26 juin 2024 à 11:15

☕️ Teams : la Commission européenne soupçonne encore Microsoft d’abus de position dominante

26 juin 2024 à 11:15

La Commission maintient certains griefs contre Microsoft, lui reprochant des pratiques « potentiellement abusives de vente liée concernant Teams ».

En août 2023, l’entreprise avait pourtant annoncé la séparation de son logiciel de visioconférence de Microsoft Office 365, suite à l’ouverture le mois d’avant d’une enquête de l’institution européenne sur un potentiel abus de position dominante.

Mais, la Commission a conclu « à titre préliminaire que ces changements sont insuffisants pour répondre à ses préoccupations et que Microsoft doit apporter davantage de modifications à son comportement pour rétablir la concurrence ».

Elle craint notamment que Microsoft s’appuie sur sa « position dominante au niveau mondial sur le marché des applications de productivité SaaS à usage professionnel » en liant Teams à ses offres sur ce secteur, « restreignant ainsi la concurrence sur le marché des produits de communication et de collaboration et protégeant sa position sur le marché des logiciels de productivité et son modèle centré sur les suites contre les fournisseurs concurrents de logiciels individuels ».

Cette utilisation de sa position dominante « a pu empêcher les concurrents de Teams d’entrer en concurrence et, à leur tour, d’innover, au détriment des clients de l’Espace économique européen », explique encore la Commission.

L’institution a envoyé ses griefs à Microsoft et lui laisse le loisir de répondre, précisant que « l’envoi d’une communication des griefs ne préjuge pas de l’issue d’une enquête ».

Next
Udio et Suno, des IA de génération de musiques attaquées par l’industrie musicale américaine 25 juin 2024 à 16:46

Udio et Suno, des IA de génération de musiques attaquées par l’industrie musicale américaine

25 juin 2024 à 16:46

Je danse le IA

Udio et Suno, deux startups d’IA générative spécialisées dans la musique font face à des plaintes de l’industrie musicale : l’association américaine des maisons de disque RIAA ainsi que Universal Music Group (UMG), Sony Music Entertainment et Warner Records les ont attaqués pour violation de copyright « en masse » et demandent 150 000 dollars par titre.

Deux startups Udio et Suno se sont lancées dans l’IA générative de musique avec un certain succès. Suno peut, par exemple, générer une chanson à partir d’un prompt avec un style de musique demandé et des paroles. Elle peut aussi générer elle-même des paroles en utilisant l’API d’OpenAI. Elles ont toutes les deux levé plusieurs millions de dollars et la valeur de Suno est évaluée à près de 500 millions de dollars.

Jusque-là, d’autres avaient déjà sorti des applications, mais elles ne donnaient pas de résultat probant. Comme l’explique le Youtubeur Florent Garcia, « la plupart des outils […] n’étaient pas capables de faire des morceaux qui avaient une tonalité cohérente, une signature rythmique cohérente, des parties rythmiques qui auraient du sens ». Mais, ces deux applications se rapprochent de sons publiés par des majors de l’édition numérique.

Vue normale

☕️ Le fonds de capital-risque Sequoia prévoit une explosion de la bulle de l’IA