↩ Accueil

Vue lecture

[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Y aura-t-il des ads ibou ?
[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Est-il possible de créer aujourd’hui un moteur de recherche sans faire partie des plus grosses entreprises du secteur ? Pour explorer ce thème, nous nous sommes entretenus avec Sylvain Peyronnet, PDG de Babbar.

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 24 septembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


Depuis quelques semaines, Next a repéré sur les réseaux sociaux un nouveau projet français de moteur de recherche (conversationnel, cette fois) porté par l’entreprise Babbar : Ibou. Connaissant un autre projet de moteur de recherche dont les résultats se sont trouvés datés et limités, nous étions curieux de savoir s’il était possible d’en monter un avec un index correct, à jour et qui pourrait profiter des nouvelles technologies comme les LLM pour améliorer son fonctionnement.

Nous avons interrogé Sylvain Peyronnet, PDG de Babbar. Son entreprise est spécialisée dans les outils permettant aux spécialistes du SEO d’améliorer leurs stratégies. Lui est un ancien enseignant-chercheur en intelligence artificielle, mais aussi l’ancien responsable scientifique de Qwant, parti en 2019.

>> Qu’est-ce qu’il y a derrière ce nom d’Ibou à l’apparence très française ?

C’est un projet de moteur de recherche de l’entreprise Babbar. Celle-ci fait, depuis que j’ai quitté Qwant et qu’on l’a montée, des outils qui font tourner en arrière-plan un moteur recherche, pour comprendre ce que fait Google et fournir de la data aux gens qui font du référencement web. Pour différentes raisons, nous avons décidé de pivoter. Nous avons commencé à créer un moteur de recherche conversationnel depuis quelques mois. Et nous l’avons annoncé quasiment dès qu’on a commencé le travail.

Ibou, même si on joue beaucoup avec des logos liés à l’oiseau parce qu’on est en France, ça n’a rien à voir : c’est un mot d’égyptien ancien qui veut dire « les cœurs », car, dans l’Égypte ancienne, le cœur était le siège du raisonnement et de la mémoire.

>> Qu’est-ce qui vous a amenés à imaginer ce projet ?

En travaillant dans le secteur du moteur de recherche depuis longtemps, nous nous sommes rendu compte de plusieurs choses.

Déjà, jusqu’au paradigme conversationnel, les moteurs n’étaient pas vraiment faits pour de la recherche d’information, mais pour de la recherche documentaire : ils renvoyaient des pages web. Pourtant, quand les gens tapent une requête dans un moteur, la plupart du temps, ils s’en fichent un peu. Ce qu’ils attendent, c’est une réponse qui les satisfait et qui leur permet de réaliser les tâches qu’ils veulent réaliser.

« L’émergence des LLM a permis de faire percoler des informations humaines dans des objets mathématiques »

Ensuite, pour faire un bon moteur, le nerf de la guerre était d’avoir beaucoup de données utilisateurs pour comprendre l’être humain et affiner ce que faisaient les algorithmes et qui n’était jamais parfait. Et pour parfaire les résultats d’un moteur, il fallait beaucoup de comportements humains.

L’émergence des LLM, et surtout des LLM alignés, a permis de faire percoler des informations humaines dans des objets mathématiques, les modèles. Maintenant, une partie des choses qui pouvaient être faites grâce à la data humaine peut être faite grâce aux modèles qui existent. Bien sûr, ceux-ci ont été fabriqués avec de la data humaine. Mais, comme c’est à l’intérieur du modèle et que c’est pas très cher de faire tourner des modèles, une partie de la difficulté, et notamment de la barrière à l’entrée, de la création d’un moteur a disparu, parce que le modèle a incorporé cette connaissance des humains.

C’est pour ça qu’on a décidé de se lancer aujourd’hui. En réalité, n’importe quelle équipe de personnes qui sont un peu douées en algorithmique peut faire des moteurs de bonne manière.

>> L’idée est donc de faire un moteur de recherche conversationnel sur quels types de contenus ? Textuels, images, audio ?

Notre moteur a vocation, à terme, à mettre en avant l’information. Et donc la multimodalité fait partie du pack, puisqu’en réalité, l’information n’est pas que textuelle, qu’image, etc. Mais il faut être raisonnable : au début, on ne va avoir que textes et images. Pour la vidéo, ce n’est pas un problème algorithmique, mais nous n’avons juste pas les moyens. Ça arrivera plus tard si on arrive à montrer qu’on est capables d’avoir des résultats de bonne qualité sur textes et images.

Mais nous avons une vision un peu différente des autres de ce que doit être un moteur de recherche, et une vision plus ouverte du web que ce que proposent la plupart des plateformes actuelles. Notamment, nous voulons être un moteur qui répond à l’utilisateur, mais pas comme un LLM classique comme ChatGPT ou autres, avec un texte qui explicite absolument tout. Cela génère souvent une mauvaise qualité de réponse.

« On veut aussi garantir un pluralisme »

Indépendamment des hallucinations ou des mensonges, en réalité, les gens veulent souvent accéder à une source. La bonne réponse, de notre point de vue, est l’explication de pourquoi il faut aller lire une source. Nous voulons nous interposer à un niveau intermédiaire avec toutes les modalités qui permettent d’expliquer, les images, les cartes, etc.

On pense aussi qu’il ne faut pas prendre les gens pour des abrutis. Actuellement, les moteurs ont des biais terribles et ne présentent qu’une seule partie de l’information. On veut aussi garantir un pluralisme. L’actualité est traitée par chaque média depuis son point de vue, et c’est compréhensible, chaque média a sa ligne éditoriale particulière. Mais un moteur de recherche peut tout à fait mettre en avant la diversité de point de vue.

>> Ça fait penser aux vieilles approches de portail d’informations comme Yahoo ou autre. Vous en êtes-vous inspirés ?

Peut-être de façon involontaire : ça correspond à l’image du web qu’on a dans l’équipe, qui est plus composée de vieux barbus que de startupers. Mais la technologie permet de faire des choses beaucoup plus subtiles que ce qu’on faisait avant. Nous allons avoir une verticale qui va se rapprocher fortement d’un portail : Ibou Explorer, un équivalent de Google Discover, mais de qualité. Ici, toutes les sources seront directement présentées dans leur diversité, avec une personnalisation. On sera là plus proche d’une idée de portail, comme ceux de Yahoo, etc. J’espère qu’on va réussir à faire un meilleur travail.

Par contre, sur la partie moteur, il y a une partie de curation. Il va falloir trouver le bon équilibre et savoir où la curation s’arrête : on ne veut pas prendre le pas sur la réflexion de l’humain.

>> Concernant la curation, il y a aussi celle des contenus diffusant des informations volontairement fausses et des contenus générés par IA. Ibou va-t-il prendre en compte ces problématiques ?

Ce sont deux sujets sur lesquels nous travaillons. Le premier, la véracité de l’information, est le plus simple. Nous expliquons dans notre manifeste que nous voulons donner des informations de qualité. La qualité, pour nous, étant la correction de l’information et son utilité. Pour l’utilité, c’est assez clair : à tel type de personne, est-ce que l’information va lui servir pour réaliser sa tâche ?

La correction est de savoir si une chose est vraie ou fausse, sachant qu’il y a toute une gradation et qu’à un moment donné, une chose peut n’être ni vraie ni fausse (une opinion, par exemple). Il y a une vraie difficulté technique à faire ça. Nous avons prévu un processus pour qu’une chose abusivement fausse ne puisse pas passer, avec quelques erreurs de temps en temps. Mais sur l’actualité, il est parfois difficile de repérer le mensonge. La grosse partie de ce qui est de la propagande, qui est de la manipulation, se repère plus sur la qualité intrinsèque des contenus que par rapport à l’information elle-même et sa véracité.

Par rapport aux contenus IA, dans notre prototype Ibou Explorer, ce qui compte, ce n’est pas que le contenu soit généré par IA ou pas, mais s’il a un niveau tel qu’il aurait pu être écrit par un être humain. Nous allons donc plutôt qualifier si un contenu qui s’annonce journalistique s’appuie réellement sur les sources qu’un journaliste aurait utilisées, par exemple. On essaye de vérifier quel est le type de personne qui a écrit (en s’appuyant sur le niveau de langage, le type d’écriture, si la personne a écrit des articles dans des médias de confiance, etc). C’est des choses qu’on arrive à faire et qu’on peut utiliser.

Pour Ibou Explorer, c’est d’autant plus facile à faire qu’on est sur un nombre de sites qui est beaucoup plus petit. Il est donc beaucoup plus facile de comprendre quelles sont les sources de qualité et les autres. Sur le search à très grande échelle, il faut que nous industrialisons ce processus, ce qui coûte très très cher. Nous essayons en ce moment d’en réduire les coûts.

>> Mais il est difficile, pour le public, de comprendre quels paramètres permettront de discriminer…

C’est la vraie problématique. Nous voulons être transparents algorithmiquement. Nous allons donc communiquer certaines choses. Nous faisons des analyses sur le vocabulaire utilisé, on le compare au vocabulaire utilisé sur d’autres sites web, etc. Par exemple, pour le Monde, nous listons les contenus qu’il publie et statistiquement leurs caractéristiques. Ça crée ensuite des empreintes pour des classifieurs qui permettent de facilement repérer si des contenus sont susceptibles d’être les mêmes, s’en approchent, etc. C’est par des artifices statistiques que nous allons faire les choses, c’est le seul moyen d’automatiser.

Bien sûr, nous savons qu’il y a toujours moyen, en travaillant vraiment à publier des choses qui ressemblent à de bons articles. L’avantage, c’est que les gens qui font de la fake news publient en masse et ne travaillent pas bien un article unitairement, et il est donc possible de les repérer.

Les jugements humains d’invalidation, notamment pour la partie Ibou Explorer, ne viendront qu’a posteriori.

Mais il y a des mécanismes algorithmiques en plus sur lesquels nous ne pouvons pas être transparents, sinon les gens pourraient savoir comment passer outre. Par contre, nous allons mettre en place une interface, un peu comme la Google Search Console, où les gens pourront demander pourquoi telle ou telle page n’est pas dans Ibou. Et nous donnerons la qualification que nous en faisons (« il n’est pas de qualité pour telle ou telle raison », par exemple), sans pour autant expliquer comment nous l’avons fait.

Nous avons un système, par exemple, qui donne la probabilité qu’un contenu soit écrit par un humain, une IA ou un humain assisté d’une IA. Bien sûr, ça se trompe : il y a souvent des contenus écrits par des humains qui sont détectés comme générés par des IA parce que les humains ont mal écrit. On se trompe davantage dans ce sens, car il y a assez peu de gens qui font de bons contenus IA. Nous donnerons aussi un outil qui analysera le texte et qui donnera notre conclusion.

>> Ciblez-vous l’indexation du web francophone, anglophone ou carrément tout le web ?

Aujourd’hui, nous crawlons tout le web, même si nous avons priorisé le francophone et quelques langues des pays limitrophes à la France. Nous ferons ensuite toutes les langues qu’on peut faire : pour des raisons algorithmiques, certaines langues (indépendamment des marchés) sont difficiles, comme les langues asiatiques ou le finlandais. Le russe, nous ne l’indexons pas. Même dans Babbar, nous ne le crawlons plus, en ce moment : ça ne sert à rien puisqu’il n’y a plus de marché.

Nous n’avons pas vocation à nous limiter à notre marché domestique. Mais on va mettre une priorité sur les contenus européens, car notre public sera probablement européen, mais ça ne veut pas dire qu’on ne traitera pas les autres langues. On va simplement favoriser des contenus susceptibles d’être cherchés par nos utilisateurs.

>> Concernant la souveraineté, quelle est votre position ? Où seront installés vos serveurs ?

Je n’aime pas cet axe de la souveraineté qui est utilisé par beaucoup de mes camarades. Nous sommes plus souverains que quiconque. Nous avons des machines qui nous appartiennent en propre, physiquement. Nous les maintenons avec nos équipes en France et elles sont à Marcoussis dans le 91.

Nous n’utilisons pas de solution de cloud : nos modèles tourneront « on premise », ne serait-ce que pour des raisons économiques et écologiques. Ça n’a aucun sens d’utiliser du cloud, surtout aux États-Unis, pour faire ça. Nos données sont stockées en France. Enfin, pour garantir notre service, nous avons des machines que nous administrons chez deux opérateurs : OVH (en France et aux Pays-Bas) et Scaleway (en France). Nos capitaux sont tous français. Mais je dis plutôt « made in France » plutôt que « souverain ». Pour nous, ça coule de source, puisqu’on vit et on travaille ici.

>> Quelles ressources en temps et en argent sont nécessaires pour crawler le web maintenant et le sauvegarder ?

Beaucoup moins qu’avant. Moins pour nous que pour d’autres, mais ça demande quand même beaucoup de ressources. Crawler le web, ce n’est pas ce qui va demander le plus de ressources, mais c’est le stocker et l’indexer ensuite. Aujourd’hui, le crawler historique à l’origine de la technologie mise en place pour Babbar tourne sur six à huit serveurs et doit nous coûter pas plus de 15 000 euros par mois pour crawler quatre milliards de pages par jour.

Ce qui coûte très cher, c’est le stockage. Mais avec une infrastructure qui coûte à la louche un million d’euros, on a une infrastructure qui se situe dans les 15 premiers crawlers mondiaux et qui est largement capable de scrawler un index qui peut servir toute l’Europe. On a créé une énorme base de données.

Mais un moteur de recherche, c’est aussi des millions d’utilisateurs et les infrastructures de services coutent cher aussi. Il faut donc faire « scaler » le service, ce qui est uniquement proportionnel au nombre d’utilisateurs.

Tout ça, ce sont quelques millions d’euros maintenant, là où c’étaient des dizaines de millions il y a quelques années.

>> Quelle est modèle économique du projet Ibou ?

C’est le même que tout le monde. Il ne sera pas mis en avant dans un premier temps, mais ce sera un modèle lié à de la monétisation. C’est un modèle B2C, avec monétisation B2C standard et un peu de publicité, un peu d’affiliation, des fiches entreprises… Le nerf de la guerre, pour financer les opérations, ce sera essentiellement d’avoir du trafic. Comme Google, Bing, etc. Pour l’affiliation, la logique ne sera pas d’avoir un deal exclusif avec un programme d’affiliation en particulier, mais de faire des deals avec plusieurs programmes.

« Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable »

Nous débutons et on sait que ça coute cher d’entretenir un moteur, il faut quelques millions par an, mais ça ne coute pas le prix auquel voudraient nous faire croire les GAFAM. Il n’y a pas besoin de faire 10 milliards de bénéfices pour faire tourner un moteur de recherche. Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable.

>> Est-ce que vous assurerez à vos utilisateurs que leurs données seront protégées ?

Ayant travaillé chez Qwant, je ne sais pas qui est capable de donner une telle garantie. Je pense que c’est littéralement impossible. La donnée utilisateur que nous allons garder qui pourra intéresser le plus le RGPD, ce sera la donnée de personnalisation du Ibou Explorer, à travers un compte utilisateur et le consentement pour l’utiliser.

Mais elle ne sera pas utilisée par les algorithmes de pub, car ceux-ci n’en ont finalement pas besoin. Ils ont besoin juste de savoir ce sur quoi ils s’affichent. Et quand une page s’affiche, maintenant avec les LLM, c’est extrêmement simple de comprendre le contexte de la page. Avec des éléments de contexte suffisant, on peut faire de la pub qui est aussi performante que celle qui utilise l’information utilisateur. Donc pour la pub que nous opérerons nous-mêmes, il n’y aura pas de données utilisateur conservées et utilisées. Après quand on envoie quelqu’un chez un tiers, on ignore ce qui s’y passe.

>> Donc pas de système de traqueurs dans le modèle économique de Ibou ?

Non. Déjà, ce n’est pas notre vision. Et je pense que si on fait ça, on devient un aspirateur de données et on ne fait plus le même moteur. Si on devait faire ça, actuellement, on ferait plus un réseau social.

>> Le copyright et les droits voisins sont des questions sensibles quand on parle de moteur de recherche avec IA générative. Comment envisagez-vous la question ?

Nous envisageons la question verticale par verticale. Sur la partie Ibou Explorer, qui est la plus touchy (80 % des contenus viennent de médias), nous n’allons pas faire de résumé IA. Nous ne voulons pas nous approprier les contenus. Nous ne faisons que du renvoi de trafic vers les tiers, avec un mécanisme d’opt-out et des accords partenariaux.

Sur la partie search, il y aura aussi un mécanisme d’opt-out, car il y a des problématiques qu’on ne pourra jamais résoudre. Pour la partie présentation de l’information, nous voulons systématiquement renvoyer vers les sources. Par exemple, si quelqu’un demande « est-ce qu’il faut un visa pour aller dans tel pays ? », notre système va répondre « oui » ou « non », mais ne va pas donner plus d’informations. Il va, par exemple, répondre « Oui et tout est expliqué sur ce site » et c’est seulement si la personne demande d’aller plus loin sans passer par le site qu’on va donner plus d’informations. Nous voulons renvoyer au maximum vers les sources elles-mêmes.

Nous réfléchissons encore à un mécanisme pour reverser une partie des revenus associés aux réponses qui contiennent cette source, mais nous n’avons aucune idée encore de ce qu’on voudrait faire.

« La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM »

>> Concernant la possibilité de régurgitation de contenus copyrightés, comment gérerez-vous ?

C’est un problème qui n’existera pas. Venant de l’IA, nous faisons partie des gens qui pensent que les LLM ne sont absolument pas autre chose qu’un outil d’écriture. Nous n’utiliserons pas d’information contenue dans le LLM. Ça change d’ailleurs tout pour nous, parce que nous n’avons pas besoin d’utiliser un LLM de très grande dimension comme ceux d’OpenAI ou à 500 milliards de paramètres. Ça n’a aucun intérêt de s’en servir, car s’ils ont autant de paramètres, c’est pour pouvoir s’en servir sur des questions qui nécessitent de la connaissance. C’est une profonde erreur.

La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM. De tous les mastodontes qui existent devant nous, le seul qui est sur une approche un peu près similaire à la nôtre, c’est Perplexity. Mais ChatGPT et les autres font une profonde erreur : ils ne pourront jamais faire des bons outils de recherche, car ils sont persuadés que le LLM peut contenir du savoir et de l’information, ce qui n’est pas vrai. Ils n’ont pas été créés pour ça et on croit qu’ils en contiennent, car ils sont capables de broder un discours sur des bribes d’information qu’ils ont vues. Ce qui n’est pas du tout la même chose que d’avoir de l’information.

Tant qu’on ne va pas au-delà des transformers, la question est réglée par le fait qu’en réalité on a un moteur de recherche avec un index proche de ce qui se faisait avant, mais qui peut être facilement interfacé avec un LLM, qui lui va se contenter d’écrire les réponses. Chacun son rôle : le LLM comprend la langue, le moteur connaît l’information. Le LLM est un documentaliste qui sait utiliser un moteur de recherche et qui peut nous renvoyer vers les contenus pertinents.

C’est aussi le seul moyen de contrôler la véracité d’une information. Sinon, quand on fait confiance à un LLM pour donner une information, il y a toujours 5 à 10 % de taux d’erreur automatiquement.

>> Pourra-t-on utiliser les opérateurs de recherche comme site:, intitle: ou fileformat: ?

Le moteur grand public d’Ibou ne le permettra pas car c’est un moteur conversationnel et que nous n’indexons pas à proprement parler les pages web, mais les informations les plus importantes et une référence à la page. Ainsi, toute une partie des opérateurs devient inopérante, car on peut indexer le titre parce qu’on pense que c’est du contenu important sans pour autant stocker que c’est le titre.

Il y a aussi une API sur l’index qui existe et qu’on utilise pour faire le moteur. Ce n’est pas exclu qu’on permette à d’autres de pouvoir y accéder.

>> Pourquoi, maintenant, pensez-vous que c’est possible d’indexer le web alors que Qwant, pour lequel vous avez travaillé, a essuyé des problèmes pour le faire à l’époque ?

Dans Babbar, on indexe et on crawle déjà beaucoup plus que ce qui est nécessaire pour faire un moteur de recherche, car on vend de la data aux référenceurs. On doit vendre aussi de la data que les moteurs ne prennent pas en compte pour aider les SEO à comprendre pourquoi ils arrivent à se positionner et pourquoi ils n’y arrivent pas.

« Faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile »

À Babbar, on a un index qui était de 2 000 milliards de pages, mais qui a beaucoup diminué pour lancer Ibou : on est maintenant à 1 400 milliards de pages sur la partie Babbar. Et même si ce n’est pas tout à fait les mêmes index puisqu’un moteur a besoin de plus de données mais sur moins de pages, on est sur des choses très similaires. Et faire un index, ce n’est pas un problème : on a déjà un index complet qui tourne avec des résultats de recherche. Mais même si on pense qu’on est déjà meilleurs que d’autres ne l’ont été précédemment, pour l’instant, on estime que notre projet n’est pas encore au niveau et on ne veut pas créer une mauvaise image alors qu’on est encore en train de travailler.

La seule vraie difficulté qu’il y avait avant, ce n’était pas la partie index – que nous avons résolue dans Babbar depuis longtemps –, mais qu’il fallait de la data utilisateur pour faire les choses. Faire un index qui contient les bonnes pages, ce n’est pas difficile, faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile. Ce sont les fonctions de ranking.

Depuis 2005, ces fonctions n’étaient bonnes que s’il y avait une data utilisateur qui permettait de compenser tous les problèmes que les algorithmes ne sont pas capables d’arbitrer. C’est ce qu’on a vu dans le procès de Google : l’utilisation massive de la data comportementale des utilisateurs au niveau du moteur, c’est ça qui fait la qualité du moteur. Et Google est le plus fort, parce qu’il a beaucoup plus de données que Bing par exemple. Mais avec les LLM, il n’y a plus besoin de cette data pour faire quelque chose de bien, parce que le LLM peut simuler l’humain en grande partie et suffisamment bien pour faire les dernières étapes de tris.

Une fois que les algorithmes ont bien travaillé, il reste des scories : peut-être 10, 20 ou 30 % de l’index sont en tête et ne devraient pas, et c’est le LLM qui en enlève une grosse partie. Et en plus, quand on fait la synthèse des réponses, le LLM prenant plusieurs sources simultanément réussit à donner une réponse qui est bien meilleure que si on prenait chaque source indépendamment les unes des autres, en faisant comme l’être humain qui va lire plusieurs contenus pour faire sa propre opinion.

Pour en revenir à la question, cette dernière étape, qui était plus une étape de coût, est beaucoup plus facile à faire et la barrière de la data massive a complètement disparu.

>> Quelle est l’articulation entre Babbar et Ibou ?

C’est la même boite, les mêmes personnes. Nous espérons que tout va bien se passer pour nous, avec peut-être de l’aide de l’extérieur on ne sait pas encore, et qu’on va pouvoir recruter cette année. Par contre, ce sont des infrastructures techniques séparées parce que ce sont des outils qui n’ont pas du tout le même objectif. Donc algorithmiquement, c’est assez différent pour qu’il n’y ait aucun intérêt pour nous à ce que ce soient les mêmes plateformes.

Le crawler de Babbar est un crawler SEO, le crawler d’Ibou sera un moteur de recherche. Nous n’avons pas vocation à être autorisés à crawler de la même manière tous les sites selon le métier. Si on avait un crawler IA, ce serait encore une autre plateforme, car on ne peut pas mélanger les genres et que, pour être respectueux des gens, c’est ce qu’il faut faire. On veut aussi séparer parce que, aujourd’hui, notre activité est largement soutenue par notre activité SEO, mais on se doute qu’à un moment donné se posera la question de savoir si les deux activités doivent rester côte à côte ou pas.

>> Quand Ibou sera disponible ?

Pas avant un an. Pour les premières verticales, comme la partie Ibou Explorer (ndlr : l’équivalent de Google Discover), ça devrait arriver début 2026.

  •  

☕️ Une gardienne de la paix arrêtée pour avoir vendu des fichiers policiers sur Snapchat

Une gardienne de la paix de 25 ans et son « petit ami » de 31 ans ont été arrêtés la semaine passée pour avoir vendu via Snapchat des informations émanant de fichiers policiers.

L’enquête aurait débuté en mai dernier, après que des enquêteurs de l’Office anti-cybercriminalité (OFAC) ont eu découvert une « story » Snapchat proposant d’acheter des accès à des fichiers policiers, rapportent BFMTV et Le Figaro.

Les investigations téléphoniques ont permis de remonter à une policière « affectée à la garde bâtimentaire et donc pas en charge d’enquêtes », précise le parquet de Paris. Depuis début 2024, elle aurait néanmoins effectué 94 consultations frauduleuses du fichier du traitement des antécédents judiciaires (TAJ) et 169 du fichier des personnes recherchées (FPR).

Son compte bancaire a par ailleurs permis d’identifier des virements de 15 à 5 000 euros émanant des personnes concernées, pour un bénéfice estimé à 12 000 euros.

Son petit ami, « très défavorablement connu des services de police » (expression désignant généralement le fait d’avoir été plusieurs fois « mis en cause » – MEC – dans le TAJ), se chargeait de trouver des clients. Les tarifs allaient de 30 euros pour une consultation du système d’immatriculation des véhicules (SIV), 150 euros pour le FPR, jusqu’à 250 euros pour une levée d’immobilisation d’un véhicule.

Les suspects ont été placés sous contrôle judiciaire avec interdiction d’entrer en contact et de quitter le territoire, et interdiction d’exercer toute fonction publique pour la policière, d’ici leur procès prévu pour le 15 juin 2026.

Le Figaro souligne par ailleurs que les affaires relatives aux « atteintes à la probité » dans la police nationale ont « pratiquement doublé en cinq ans », passant de 137 à 234 entre 2020 et l’année dernière. Cette « démocratisation » de la consultation des fichiers policiers résulterait du fait qu’ils sont accessibles à un plus grand nombre de fonctionnaires, ainsi qu’à la numérisation des procédures.

Le dernier rapport de l’Inspection générale de la Police nationale (IGPN, la « police des polices »), révèle que 93 enquêtes ont été ouvertes en 2024 pour « violation du secret professionnel » (soit le même nombre qu’en 2023), et 75 autres pour « détournement de fichiers » (93 en 2023). Ces violations ont donné lieu à 24 enquêtes ouvertes pour « corruption active » et 42 pour corruption passive, soit le double qu’en 2023.

L’IGPN avait alors annoncé vouloir renforcer le contrôle d’accès aux fichiers policiers, précisant qu’un chef de projet et deux « data scientists » travaillaient au développement d’un algorithme capable de détecter les usages « anormaux ».

  •  

Microsoft va apporter l’accélération matérielle à son chiffrement BitLocker, mais…

Disponible, mais pas vraiment
Microsoft va apporter l’accélération matérielle à son chiffrement BitLocker, mais…

BitLocker, la technologie de chiffrement intégral du disque chez Microsoft, recevra en 2026 une évolution majeure : le support de l’accélération matérielle. Les gains attendus sont significatifs, mais ce support sera très restreint dans un premier temps. En outre, des questions restent en suspens sur l’implémentation.

BitLocker est une technologie de Microsoft permettant de chiffrer intégralement le disque. Elle existe depuis longtemps, mais a surtout pris son envol avec Windows 10. Elle est présente dans Windows 11 et est même censée être active par défaut sur les installations neuves du système, à condition qu’elles se fassent avec la version 24H2. Un test récent sur un ordinateur portable, depuis une image ISO de Windows 11 25H2 (récupérable sur le site de Microsoft), nous a cependant montré que cette activation n’était toujours pas systématique.

Le chiffrement utilisé aujourd’hui est entièrement logiciel. Le gros avantage de cette approche est qu’elle rend BitLocker compatible avec toutes les configurations. Elle a pourtant deux inconvénients : le coût en performances et le niveau de sécurité.

Pour remédier à ces problèmes, Microsoft a annoncé ce 19 décembre l’arrivée de l’accélération matérielle. Malheureusement, aucune configuration n’a ce qu’il faut actuellement, et il faudra peut-être attendre fin 2026 pour en profiter, sur un nombre très limité de configurations.

Approche logicielle : un coût croissant en performances

Dans son billet, Microsoft indique que le coût en performances de BitLocker aurait dû continuer à s’exprimer via un pourcentage à un seul chiffre. Ce n’est plus possible aujourd’hui, à cause du niveau élevé de performances offert par les SSD NVMe.

Le constat peut paraitre contre-intuitif, mais l’explication est simple : certains disques sont si rapides que le processus galope pour suivre l’explosion du nombre d’opérations entrée/sortie (I/O) et répercuter les opérations de chiffrement attenantes.

« À mesure que les disques NVMe continuent d’évoluer, leur capacité à délivrer des débits de transfert de données extrêmement rapides a créé de nouvelles attentes en matière de réactivité système et de performance des applications. Bien que cela représente un avantage majeur pour les utilisateurs, cela signifie aussi que tout traitement supplémentaire — comme le chiffrement et le déchiffrement en temps réel par BitLocker — peut devenir un goulot d’étranglement s’il n’est pas correctement optimisé », explique Microsoft.

Le problème n’est pas nouveau : Tom’s Hardware en parlait par exemple en octobre 2023. Nos confrères avaient mesuré l’impact de BitLocker via plusieurs tests, qui avaient montré une chute de performances sur SSD pouvant atteindre 45 %. Dans sa communication, Microsoft ne donne pas de chiffres, mais évoque des baisses sensibles de performances dans des cas courants comme les chargements de gros fichiers vidéo, de grandes bases de code ou même dans certains jeux, où une latence peut se faire sentir. Et plus les SSD progressent, plus le problème est manifeste.

Décharger le CPU

L’arrivée de l’accélération matérielle pour BitLocker a été annoncée initialement durant la conférence Ignite, qui s’est tenue du 18 au 21 novembre. Microsoft est même déjà prête pour ce changement, puisque les bases en ont été posées dans la mise à jour de septembre pour Windows 11.

Comme toujours avec l’accélération matérielle, l’objectif est de décharger le processeur central (CPU) de certaines opérations, pour en finir avec les goulots d’étranglement. Dans le nouveau fonctionnement, tout sera ainsi traité par une nouvelle partie dédiée dans des processeurs à venir, de la même manière que le NPU (Neural Process Unit) prend en charge les opérations liées à l’IA dans certaines puces.

L’accélération matérielle se servira de l’algorithme XTS-AES-256 pour ses opérations, qui comprendront le chiffrement intégral, l’activation manuelle, l’activation pilotée par des politiques d’entreprise ainsi que celle basée sur des scripts. Microsoft ne donne pas de détails sur son protocole de test, mais dit avoir observé des performances équivalentes entre un disque NVMe avec chiffrement matériel et un autre sans chiffrement « sur les charges de travail courantes ». Des améliorations ont également été constatées sur les « écritures et lectures séquentielles et aléatoires ». L’entreprise dit aussi avoir constaté une baisse de 70 % des cycles CPU requis pour les opérations de chiffrement en moyenne.

Cette hausse des performances permettrait aussi une meilleure autonomie des ordinateurs portables concernés, puisque les opérations consomment moins d’énergie.

Le chiffrement matériel est en outre présenté comme bénéfique pour la sécurité, car les clés utilisées pour le chiffrement de masse sont soustraites du périmètre logiciel pour être encapsulées matériellement, « ce qui aide à accroître la sécurité en réduisant leur exposition aux vulnérabilités CPU et mémoire ». Ce fonctionnement vient alors compléter celui de la puce TPM, qui s’occupe des clés intermédiaires de chiffrement.

Problèmes à l’horizon

La publication de Microsoft soulève un certain nombre de questions et de problèmes. Plusieurs cas ne seront par exemple pas pris en charge : si un algorithme ou une taille de clé non pris en charge a été spécifié manuellement, si la politique d’entreprise impose un algorithme incompatible, ou encore si la politique FIPS 140 est active dans l’organisation.

Microsoft indique que des solutions vont être apportées pour aider les entreprises à transiter vers le chiffrement matériel pour BitLocker. Au printemps, Windows 11 va ainsi être mis à jour pour procéder automatiquement à une augmentation de la taille de la clé quand c’est possible, mais le système ne pourra changer l’algorithme lui-même. En clair, il passera automatiquement de AES-XTS-128 à AES-XTS-256 quand le contexte s’y prêtera.

Rappelons également que BitLocker a bénéficié un temps d’un chiffrement matériel avec les disques auto-chiffrés eDrive. Le support avait été supprimé après la découverte de plusieurs vulnérabilités, qui avaient notamment affecté Dell. Un chiffrement logiciel avait l’avantage pour Microsoft de permettre la maitrise de toute la chaine. Le retour de l’accélération matérielle réintroduit une dépendance sur les implémentations matérielles, qui peuvent comporter des vulnérabilités (BitLocker lui-même n’est pas une protection absolue). On ne sait rien du processus qui conduira à d’éventuelles certifications.

Surtout, la question du support matériel est intrigante. Pour l’instant, seuls les processeurs Core Ultra Series 3 d’Intel (Panther Lake) sont présentés comme compatibles. Et encore, Microsoft ne parle que d’un « support initial ». Or, ces puces sont attendues pour le second semestre 2026, sans plus de précisions. Aucune mention d’AMD et des puces Arm (qui équipent l’immense majorité des PC Copilot+ via les Snapdragon X Elite de Qualcomm), Microsoft n’évoquant qu’un support prévu « pour d’autres fabricants et plateformes », sans plus de détails.

  •  

☕️ Airbus cherche à migrer ses applications critiques vers un cloud souverain

Airbus s’apprête à publier un appel d’offres pour migrer son ERP (progiciel de gestion intégré), ses systèmes d’exécution de la production, son CRM (système de gestion de la relation client) et la gestion du cycle de vie de ses produits vers le cloud. 


« J’ai besoin d’un cloud souverain car certaines informations sont extrêmement sensibles d’un point de vue national et européen », explique la vice-présidente exécutive du numérique d’Airbus Catherine Jestin à The Register. « Nous voulons garantir que ces informations restent sous contrôle européen. »

Dans ce cadre, Airbus devrait lancer début janvier un appel d’offres pour un contrat d’un montant de 50 millions d’euros sur 10 ans. 
La dimension européenne, qui impliquera probablement une collaboration entre divers fournisseurs de l’Union, pousse la dirigeante d’Airbus à la prudence sur sa probabilité de trouver les bons fournisseurs.

La préoccupation d’Airbus vient néanmoins rejoindre celle d’un nombre croissant d’entreprises, plus ouvertement soucieuses de souveraineté depuis le début de l’année 2025 et le retour de Donald Trump au pouvoir. 


Quand bien même Microsoft, AWS et Google proposent leurs propres solutions dites « souveraines » – un terme qui désigne ici plus la localisation des données stockées, sur le territoire européen, que d’autres dimensions de la souveraineté numérique –, la capacité états-unienne à accéder aux informations des entreprises clientes reste une préoccupation.

En septembre 2025, Catherine Jestin déclarait observer « avec intérêt les solutions de type S3ns et Bleu » qui, si elles n’étaient pas encore mûres, cochaient notamment « les cases en termes d’immunité aux lois extraterritoriales et protection des données ».

  •  

☕️ Microsoft diffuse en urgence un patch pour MSMQ sur Windows 10

Windows 10 n’a officiellement plus de support technique depuis le 14 octobre dernier. Dans l’ensemble des marchés, il est d’ordinaire possible de payer pour obtenir une année de support supplémentaire. Ce programme, nommé Extended Security Updates (ESU), est cependant gratuit en Europe. Il est limité à la première année et prendra fin (en théorie) en octobre 2026.

Dans le cadre de cette extension, des correctifs sont publiés pour les failles importantes ou critiques. Or, le dernier « Patch Tuesday » comportait une mise à jour spécifique, KB5071546, qui a entrainé de sérieux problèmes pour la fonction Message Queuing (MSMQ). Son installation a ainsi entrainé un arrêt de la fonction sur les machines Windows 10, Windows Server 2019 et Windows Server 2016.

Microsoft a rapidement publié une fiche technique pour résumer les symptômes : les files d’attente MSMQ deviennent inactives, les sites IIS ne fonctionnent plus et affichent des erreurs « Ressources insuffisantes pour effectuer l’opération », les applications ne peuvent plus écrire dans les files d’attente, des journaux (logs) affichent de faux messages « Il n’y a pas assez d’espace disque ou de mémoire », etc.

L’éditeur en profitait pour indiquer la source du souci : « Ce problème est causé par les récents changements introduits dans le modèle de sécurité MSMQ et les permissions NTFS sur le dossier C:\Windows\System32\MSMQ\storage. Les utilisateurs MSMQ doivent désormais accéder en écriture à ce dossier, qui est normalement réservé aux administrateurs. En conséquence, les tentatives d’envoi de messages via les API MSMQ peuvent échouer avec des erreurs de ressources. »

Dans la nuit du 18 au 19 décembre, Microsoft a donc publié en urgence un patch pour rétablir la fonction. L’entreprise ajoute d’ailleurs que ce problème peut aussi affecter un « environnement MSMQ clusterisé sous charge ». Les administrateurs sont invités à diffuser la mise à jour dans les parcs concernés.

  •  

Les pirates informatiques nord-coréens n’ont jamais été aussi actifs, et voraces

Crypto Bros
Les pirates informatiques nord-coréens n’ont jamais été aussi actifs, et voraces

Plus de 1 800 « agents présumés » de la Corée du Nord ont cherché à être recrutés chez les sous-traitants d’Amazon en un an, en progression de 27 %. Les pirates informatiques nord-coréens ont en outre volé 2,02 milliards de dollars en cryptoactifs en 2025, soit 51 % de plus que l’an passé, pour un total de 6,75 milliards de dollars depuis 2016.

Amazon a « empêché plus de 1 800 agents présumés » de la République populaire démocratique de Corée du Nord (RPDC) de rejoindre leur entreprise depuis avril 2024, et « détecté 27 % de candidatures supplémentaires liées à la RPDC » en un an, indique Stephen Shmidt, le responsable sécurité (CSO) d’Amazon, sur LinkedIn.

La Corée du Nord cherche en effet depuis des années à obtenir des emplois en télétravail dans des entreprises d’informatique afin de reverser leurs salaires pour financer les programmes d’armement du régime, ou encore d’obtenir des accès privilégiés leur permettant d’insérer des malwares, d’exfiltrer des données et plus particulièrement de voler des cryptoactifs.

Stephen Shmidt précise qu’Amazon utilise des systèmes de détection combinant un filtrage basé sur l’IA et une vérification humaine, des vérifications des antécédents et références, à la recherche d’anomalies dans les candidatures et d’incohérences géographiques, et partage plusieurs des techniques, tactiques et procédures (TTP) des pirates nord-coréens :

  • leurs usurpations d’identité sont devenues plus sophistiquées, ils piratent aussi désormais des comptes LinkedIn inactifs grâce à des identifiants compromis, voire soudoient des comptes actifs contre rémunération ;
  • ils ciblent de plus en plus les postes liés à l’IA et à l’apprentissage automatique, « probablement parce que ceux-ci sont très demandés à mesure que les entreprises adoptent l’IA » ;
  • ils travaillent souvent avec des facilitateurs qui gèrent des « fermes d’ordinateurs portables », notamment aux États-Unis, qui font croire aux employeurs qu’ils sont dans le même pays alors qu’ils opèrent à distance depuis l’étranger ;
  • après avoir initialement prétendu être passés par des universités d’Asie de l’Est, ils tendent désormais à faire croire avoir été formés dans des établissements états-uniens.

« Ce sont les petits détails qui les trahissent. Par exemple, ces candidats indiquent souvent les numéros de téléphone américains avec « + 1 » au lieu de « 1 ». Pris isolément, cela ne signifie rien. Mais combiné à d’autres indicateurs, cela donne une image plus claire. »

Un décalage « à peine perceptible » de quelques dizaines de millisecondes

« Si nous n’avions pas cherché les travailleurs nord-coréens, nous ne les aurions pas trouvés », explique Stephen à Bloomberg, d’autant que ces vrais-faux employés ne sont pas recrutés directement par Amazon, mais par ses sous-traitants.

Amazon a surveillé la vitesse de transmission des frappes sur le clavier de l’ordinateur portable de l’un d’entre eux, censé se trouver aux États-Unis, qui « auraient dû mettre quelques dizaines de millisecondes pour atteindre le siège social d’Amazon à Seattle ». Or, le temps de transmission depuis cet ordinateur était « supérieur à 110 millisecondes », un décalage « à peine perceptible » mais suggérant que son utilisateur se trouvait à l’autre bout du monde, en Chine.

Un porte-parole d’Amazon a déclaré à Bloomberg News que les pirates nord-coréens passaient par des ordinateurs localisés aux États-Unis et administrés par une femme originaire d’Arizona. En juillet dernier, cette dernière a été condamnée à 8 ans et demi de prison pour les avoir aidés à travailler pour plus de 300 entreprises américaines, générant « plus de 17 millions de dollars de revenus illicites » pour la RPDC.

Des salaires pouvant aller jusqu’à 100 000 dollars par mois

Fin octobre, Chainalysis relevait que « ce qui n’était au départ qu’un simple programme d’emploi s’est transformé en une opération mondiale sophistiquée », mais également que « les informaticiens nord-coréens gagnent désormais entre 3 500 et 10 000 dollars par mois, les plus performants pouvant atteindre 100 000 dollars par mois » :

« Opérant principalement depuis la Chine et la Russie, ces travailleurs utilisent plusieurs fausses identités (parfois jusqu’à 12 par personne) et ciblent spécifiquement des entreprises dans des secteurs stratégiques tels que l’intelligence artificielle (IA), la blockchain et la défense. En outre, il semble que la Corée du Nord cible de plus en plus les entreprises en Allemagne, au Portugal et au Royaume-Uni. »

Un butin cumulé de 6,75 milliards de dollars de cryptoactifs

Un rapport de Chainalysis consacré aux vols de cryptoactifs en 2025 souligne de son côté que la Corée du Nord « continue de représenter la menace la plus importante pour la sécurité des cryptomonnaies, avec une année record en termes de fonds volés, malgré une réduction spectaculaire de la fréquence des attaques ».

En 2025, les attaques des pirates informatiques nord-coréens ont en effet représenté « un record de 76 % de toutes les compromissions de services » (contre 61 % en 2024), et permis de dérober « au moins 2,02 milliards de dollars » en cryptomonnaies, soit 681 millions (et 51 %) de plus qu’en 2024.

Chainalysis rappelle que le groupe nord-coréen Lazarus, responsable d’une majorité des attaques contre des cryptoactifs dans le monde, avait en effet réussi à dérober 1,5 milliard de dollars à la bourse d’échange Bybit en février 2025.

Depuis 2016, ces braquages à répétition leur auraient permis de voler un montant cumulé de 6,75 milliards de dollars de cryptoactifs.

Évolution des montants volés par les pirates nord-coréens – Chainalysis

Chainalysis précise que les montants escroqués seraient les plus importants jamais enregistrés, notamment parce qu’ils parviennent à infiltrer des informaticiens dans des entreprises de cryptos, de l’IA et de la blockchain, « ou en utilisant des tactiques sophistiquées d’usurpation d’identité visant les cadres supérieurs ».

Les pirates nord-coréens chercheraient de plus en plus à infiltrer les entreprises liées aux cryptoactifs afin d’obtenir des accès privilégiés, et de maximiser les montants de leurs braquages, note Chainalysis : « une partie de cette année record reflète probablement une dépendance accrue à l’égard de l’infiltration d’informaticiens dans les bourses, les dépositaires et les entreprises web3, ce qui peut accélérer l’accès initial et les mouvements latéraux avant un vol à grande échelle ».

Des stratégies d’ingénierie sociale ciblant des cadres supérieurs

De plus, et non contents de simplement postuler à des postes afin d’être recrutés en tant qu’employés, « ils se font de plus en plus passer pour des recruteurs de grandes entreprises du web3 et de l’IA, orchestrant de faux processus de recrutement qui aboutissent à des « tests techniques » conçus pour récolter les identifiants, le code source et l’accès VPN ou SSO à l’employeur actuel de la victime ».

Chainalysis évoque également une stratégie similaire d’ingénierie sociale ciblant des cadres supérieurs, et prenant la forme de « fausses prises de contact de la part de prétendus investisseurs ou acquéreurs stratégiques », qui profitent de réunions de présentation et de pseudo-vérifications préalables pour « obtenir des informations sensibles sur les systèmes et des voies d’accès potentielles à des infrastructures de grande valeur ».

À l’instar de ce que Chainalysis avait déjà constaté ces dernières années, « la Corée du Nord continue de mener des attaques d’une valeur nettement supérieure à celles des autres acteurs malveillants ». Entre 2022 et 2025, les piratages qui lui ont été attribués « occupent les fourchettes de valeur les plus élevées, tandis que les piratages non attribués à la Corée du Nord présentent des distributions plus normales pour toutes les tailles de vols », comme le montre le graphique qui suit : « Cette tendance confirme que lorsque les pirates nord-coréens frappent, ils ciblent les grands services et visent un impact maximal ».

Les braquages de cryptos des pirates nord-coréens surclassent les autres – Chainalysis

« La capacité de cet État-nation à mener des attaques moins nombreuses mais beaucoup plus destructrices témoigne d’une sophistication et d’une patience croissantes », conclut Chainalysis.

  •  

Air France aura déployé Starlink sur l’ensemble de sa flotte d’ici fin 2026

Qui a remis une pièce dans la machine ?
Air France aura déployé Starlink sur l’ensemble de sa flotte d’ici fin 2026

Air France indique avoir déjà équipé 30 % de sa flotte d’une connexion à très haut débit Starlink et promet que la totalité de ses avions le seront d’ici fin 2026. Ce qui devait n’être qu’un simple point d’étape a relancé la polémique : Air France aurait-elle pu, ou dû, opter pour une solution européenne de type Eutelsat ?

Les communicants d’Air France ne s’attendaient probablement pas à un tel engagement. Jeudi 18 décembre, la compagnie aérienne a diffusé sur son compte X une petite séquence de 27 secondes illustrant la pose d’un module de connexion satellitaire Starlink sur le dos d’un Airbus A220. Quatre jours plus tard, le message d’origine affiche plus de 11 millions de vues, sans sponsorisation.

Sa visibilité a notamment été dopée par un retweet d’Elon Musk, patron de SpaceX (maison-mère de Starlink), qui l’a saluée d’un « très bon » en français dans le texte. Elle a aussi profité de commentaires nettement plus négatifs, dénonçant une erreur au regard des enjeux de souveraineté.

Starlink sur toute la flotte Air France d’ici fin 2026

« Nous poursuivons l’installation du wifi très haut débit à bord de nos avions, permettant de profiter gratuitement d’une qualité de service stable, rapide et sécurisée. En cette fin d’année, déjà 30% de notre flotte est équipée et la totalité le sera fin 2026 », écrit Air France.

La sélection de Starlink comme fournisseur d’accès, destiné à la fourniture d’une connexion Wi-Fi haut débit à destination des passagers, n’est pas précisément un scoop. Air France avait fait part de son projet en septembre 2024.

La compagnie expliquait alors que la constellation de satellites en orbite basse de Starlink allait lui permettre de proposer « une qualité de service de connectivité en très haut débit » à tous ses passagers, avec une structure de coût lui permettant d’envisager la gratuité pour les passagers, et ce « dans toutes les cabines de voyage ».

Avant cette annonce, Air France disposait déjà d’offres de connectivité à bord de certains de ses appareils, mais le service était payant pour l’utilisateur final, limité en bande passante, et fragmenté d’un point de vue industriel. La compagnie recourait en effet à des solutions différentes selon les appareils et le type de ligne, avec des contrats IFC (In-flight connectivity) passés chez Anuvu (ex Global Eagle), Panasonic Avionics (qui s’appuie en partie sur les capacités d’Eutelsat) ou Intelsat.

Starlink, sélectionnée en 2024 à l’issue d’un appel d’offres, présentait dans ce contexte l’intérêt d’offrir une solution à la fois intégrée et performante. « Nous avons consulté de nombreux acteurs et l’offre de Starlink est actuellement, de loin, la plus attractive du marché. Elle constitue une nette rupture en termes de qualité et de compétitivité. C’est une révolution », illustrait Alexandre Groshenny, responsable du projet dédié chez Air France, auprès de l’Usine Nouvelle. À l’époque, l’annonce du choix de Starlink n’avait pas particulièrement provoqué de réaction politique.

« Choisir Starlink plutôt qu’Eutelsat n’est pas acceptable »

Le point d’étape du 18 décembre a quant à lui suscité quelques commentaires ouvertement désapprobateurs. « Voir Air France choisir Starlink plutôt qu’Eutelsat n’est pas acceptable. Les entreprises européennes doivent comprendre qu’il s’agit désormais d’un enjeu majeur de souveraineté. Pour ma part je limiterai dorénavant mon usage de cette compagnie », a par exemple déclaré samedi Gilles Babinet, ancien coprésident du conseil national du numérique (CNNum).

« Air France, entreprise française historique, confie l’échange de données de ses voyageurs aux US et à Musk. À quand une véritable politique de souveraineté ? », s’interrogeait dès vendredi Cyprien Ronze-Spilliaert, chercheur associé au Centre de recherches de la gendarmerie nationale.

Le sujet a également ému plusieurs élus LFI dans le week-end, jusqu’à Jean-Luc Mélenchon, qui s’est exprimé dimanche soir, lui aussi sur X. « Air France choisit Starlink de Musk pour ses connexions Wi-Fi en vol plutôt que l’entreprise française et sa liaison géostationnaire plus écologique et aussi sûre. Le grand patronat de ce type n’a pas de patrie. Sauf pour les subventions et les aides sans contreparties. L’assistanat des très grandes sociétés doit cesser. »

Air France avait-elle le choix ? En réponse à ces critiques, plusieurs internautes rappellent que la fourniture d’un Wi-Fi performant est un enjeu de compétitivité commerciale pour la compagnie nationale. Or, Starlink dispose de sérieux atouts concurrentiels, notamment face à Eutelsat.

Au dernier décompte (non officiel), la constellation de SpaceX dispose en effet de plus de 9 000 satellites en orbite basse (LEO, pour low earth orbit) à environ 550 km de la Terre. Ils offrent une latence réduite, des débits conséquents et une couverture virtuellement mondiale.

Le leader européen dispose quant à lui d’une offre hybride qui associe ses satellites géostationnaires à une flotte récente d’environ 600 satellites en orbite basse (1 200 km), la constellation OneWeb LEO d’Eutelsat. L’opérateur vient justement de lever 1,5 milliard d’euros pour renforcer ses ressources en orbite basse, mais aussi préparer la future constellation européenne souveraine IRIS².

Une longueur d’avance pour Starlink

En attendant que ces investissements programmés portent leurs fruits, Starlink conserve une longueur d’avance, autant sur les capacités disponibles que sur l’accessibilité tarifaire. C’est d’ailleurs ce qui explique que François Bayrou, alors Premier ministre, avait annoncé recourir à la solution d’Elon Musk fin 2024 à Mayotte pour rétablir en urgence les communications sur l’archipel après la tempête Chido. Une décision vertement critiquée par Orange, dont le responsable des affaires publiques estimait qu’elle laissait « pantois sur le terrain de la souveraineté numérique ».

Remise sur le devant de la scène cette semaine avec Air France, la question de la souveraineté des accès et la bataille commerciale sous-jacente entre Starlink et Eutelsat pourraient bientôt connaître un nouveau rebondissement. La SNCF préparerait en effet son propre appel d’offres en vue d’équiper les TGV d’une liaison satellitaire, et l’entreprise d’Elon Musk semble déjà bien placée.

Une société de droit américain… et Elon Musk aux manettes

Au-delà du patriotisme économique, pourquoi le choix de Starlink soulève-t-il la question de la souveraineté ? SpaceX a son siège à Hawthorne en Californie. L’entreprise est de ce fait soumise aux lois des États-Unis, et plus particulièrement aux textes à dimension extraterritoriale (dont le Cloud Act et le FISA), qui ouvrent une possibilité d’accès, par l’administration ou les agences fédérales américaines, aux données des utilisateurs finaux. Difficile enfin de ne pas prendre en compte l’identité du dirigeant de SpaceX, particulièrement quand ce dernier multiplie, sur son réseau social, les attaques contre l’Europe, allant jusqu’à appeler au démantèlement de l’Union européenne.

  •  

☕️ Steam est désormais 64 bits sur Windows, les versions 32 bits abandonnées le 1er janvier

Le mois dernier, nous évoquions l’arrivée du 64 bits dans la version Windows de Steam via une bêta. Dans la mise à jour stable du 19 décembre, Steam est officiellement 64 bits sur l’ensemble des machines Windows fonctionnant sur ce type d’architecture (soit la quasi-totalité des ordinateurs aujourd’hui).

Dans les notes de version, Valve confirme que les versions 32 bits de Steam ne recevront des mises à jour que jusqu’au 1ᵉʳ janvier, ne laissant plus que quelques jours. Le client continuera de fonctionner pendant un temps, mais les bugs ne seront plus corrigés.

Les mêmes notes contiennent d’autres apports, comme la possibilité de déclarer directement un message comme suspect ou de type harcèlement depuis un clic droit sur le pseudo dans une conversation de groupe. La même fenêtre permet de bloquer l’utilisateur ciblé.

On remarque aussi que cette mise à jour ajoute le support des contrôleurs Switch 2 par l’USB sur Windows, et celui des adaptateurs GameCube en mode Wii-U avec vibration sous Windows. Plusieurs bugs ont été corrigés, notamment en lien avec les gyroscopes de plusieurs manettes.

  •  

Fuite de données confirmée chez SFR, liée au raccordement fibre

« Gérer les interventions de raccordement »
Fuite de données confirmée chez SFR, liée au raccordement fibre

SFR alerte depuis mercredi certains de ses clients au sujet d’un accès non autorisé à l’un de ses outils informatiques ayant permis l’export de données personnelles. L’opérateur indique que cet outil est lié aux interventions de raccordement fibre, mais ne précise pas le volume de clients concernés.

Le sujet du mail annonce la couleur : « Information importante concernant vos données personnelles ». Depuis mercredi, l’opérateur SFR informe certains de ses clients d’un accès non autorisé survenu au niveau de l’un de ses systèmes informatiques.

État civil et coordonnées exposés

L’intrusion aurait permis d’accéder aux informations relatives à l’identité du détenteur du compte ainsi qu’à ses coordonnées, sans qu’on sache à ce stade si des données ont été téléchargées :

« Les données personnelles suivantes ont pu être concernées par cet incident : votre nom, prénom, adresse électronique, adresse postale, numéro de téléphone de contact, ainsi que certaines données
d’identification (référence client, identifiant, mot de passe de première connexion au Compte Client généré automatiquement par SFR).
 »

Confirmée mercredi 17 décembre par l’opérateur aux Échos, l’intrusion aurait été circonscrite : « Grâce à la mobilisation rapide de nos équipes internes, l’incident a pu être maîtrisé et rapidement clos ».

Dans son courrier, l’opérateur précise que l’accès non autorisé a concerné un outil « utilisé pour
gérer les interventions de raccordement de nos clients sur le réseau fixe
 ».

Un échantillon intrigant

S’agit-il d’un pot de miel opportuniste destiné à piéger des pirates en herbe ou des conséquences de cette fuite ? Sur le tristement célèbre Breachforums, dont une émanation a repris du service depuis quelques jours, un internaute affirme détenir un fichier de 17,4 millions de lignes émanant de SFR. La présentation qui en est faite liste des variables dont certaines évoquent directement des paramètres liés à une opération de raccordement chez un particulier.

L’auteur affirme avoir décidé de proposer son fichier à la vente faute d’avoir pu négocier les conditions d’une rançon auprès de SFR. L’échantillon mis à disposition, que nous n’avons pas pu directement contrôler, laisse imaginer une extraction issue d’un logiciel métier utilisée par les équipes terrain en charge des raccordements.

Les opérateurs toujours dans le viseur des pirates

SFR avait déjà connu une fin d’année mouvementée sur le plan des données personnelles fin 2024, période où Free avait lui aussi fait l’objet d’un vol à rebondissements. Ce nouvel incident rappelle que les opérateurs constituent des cibles de choix pour les attaquants, du fait de leurs très importants parcs clients. Les acteurs plus confidentiels n’échappent cependant pas à la vague.

D’après nos informations, l’opérateur d’infrastructures Altitude Infra a lui aussi été récemment « victime d’un vol de données sur un extranet permettant d’échanger avec ses clients opérateurs ». L’incident, survenu le 1er décembre dernier, aurait permis d’accéder à des données personnelles de clients finaux.

« Les mesures de sécurité nécessaires pour prévenir tout nouvel accès frauduleux ont été immédiatement mises en place. Altitude Infra a déclaré l’incident à la CNIL, notifié l’ANSSI et porté plainte. Les équipes sont pleinement mobilisées pour accompagner ses clients concernés par ce vol », a déclaré Altitude Infra à Next vendredi.

  •  

La justice rejette les demandes de suspension de Shein et Kick formulées par l’État

Bis repetita
La justice rejette les demandes de suspension de Shein et Kick formulées par l’État

Deux dossiers très différents mais une issue commune : le tribunal judiciaire de Paris a rejeté vendredi les demandes de blocage provisoire formulées par l’État. Dans les deux cas, la justice a estimé que la mesure envisagée porterait une atteinte disproportionnée à la liberté d’expression dans le cas de Kick, et à la liberté d’entreprendre dans l’affaire Shein. L’État interjette appel de ces deux décisions.

Mise à jour, 20 décembre, 13h45 :

Le gouvernement a réagi vendredi en fin d’après-midi à ces deux décisions. Dans un communiqué, diffusé par l’intermédiaire de Bercy, il se dit convaincu du risque systémique du modèle lié à Shein, et annonce qu’il « fera appel de cette décision dans les prochains jours » à la demande du Premier ministre.


Publication initiale, 19 décembre à 17h04 :

La mesure serait « disproportionnée » au regard de ventes problématiques qui restent « ponctuelles » chez Shein et contre lesquelles la plateforme chinoise aurait déjà pris des mesures, a estimé le tribunal judiciaire de Paris.

Suite à une audience organisée le 5 décembre dernier, il a de ce fait rejeté, dans une décision communiquée vendredi à l’AFP et partagée par notre confrère Marc Rees sur LinkedIn, la demande de suspension pour trois mois des activités de Shein en France, réclamée par le gouvernement.

Dans le même temps, il a tout de même fait injonction à Shein de ne pas reprendre la vente de « produits sexuels pouvant caractériser un contenu à caractère pornographique » avant la mise en place d’un dispositif de contrôle de l’âge.

Shein a déjà pris les mesures qui s’imposaient

Rappelons que suite au scandale des poupées enfantines à caractère sexuel référencées sur sa plateforme, Shein a pris la décision, début novembre, de suspendre les activités de sa marketplace en France. « Cette suspension nous permet de renforcer nos mécanismes de responsabilité et de garantir que chaque produit proposé respecte nos standards et nos obligations légales », avait déclaré un porte-parole.

Le géant chinois argue par ailleurs qu’il n’a pas vendu directement les produits concernés, puisque ces derniers passaient par sa place de marché, et qu’il est directement intervenu dès que le problème lui a été signalé.

Shein a suspendu sa marketplace en France

Une défense jugée un peu légère par l’État français, qui a donc lancé plusieurs offensives, notamment judiciaires, à l’encontre de Shein. « Au regard des risques systémiques du fonctionnement et du modèle de Shein, l’État confirme sa demande de blocage du site pour une durée de 3 mois, ou a minima le maintien de la suspension de sa marketplace », résumait-il le 5 décembre dernier suite à l’audience.

Le ministère public avait de son côté prévenu fin novembre que la suspension pour trois mois risquait d’être considérée comme une mesure disproportionnée si aucune preuve de nouveau manquement n’était apportée.

Un avis suivi par la cour. Dans sa décision, le juge estime en effet que le blocage « porterait une atteinte injustifiée au droit à la liberté d’entreprendre », dans la mesure où « seuls certains produits de la marketplace » ont été identifiés comme illicites, sur un catalogue de plusieurs centaines de milliers d’articles.

« Si l’État français soutient que la mise en vente de ces produits est révélatrice d’un défaut systémique de contrôle, de surveillance et de régulation des produits proposés à la vente sur la plateforme, il échoue à en rapporter la preuve », note le tribunal.

Il profite enfin de sa décision pour affirmer, comme l’a souligné l’avocat Alexandre Archambault, que l’État fait fausse route en saisissant le tribunal judiciaire sur le fondement de la LCEN française, alors qu’il cherche à faire sanctionner de supposés manquements au DSA européen.

Kick maintenu, mais la chaîne de Jean Pormanove reste suspendue

Également diffusée par Marc Rees, la décision relative à la plateforme de streaming Kick suit sans surprise une logique similaire, même si cette fois c’est l’absence de modération de contenus considérés comme illicites qui est dénoncée.

Faute de preuve relative à de nouveaux manquements et compte tenu des mesures mises en place par la plateforme australienne, le tribunal rejette la demande principale de suspension de l’accès à Kick en France :

« Il n’est pas démontré que la plateforme opérée par la société Kick, qui n’est pas elle-même éditrice ou créatrice des contenus, serait dans son ensemble, par sa structure même et sa ligne éditoriale, porteuse, de manière systémique, de contenus dommageables ».

La donne est en revanche différente concernant le retour en ligne du canal par lequel diffusait le streamer décédé. « S’agissant de la salle officielle « Jean Pormanove », les éléments déjà énoncés quant aux contenus qui y ont été diffusés démontrent un dommage grave, qui serait nécessairement réactivé, si la réouverture de la salle permettait la rediffusion des anciens contenus », estime la cour.

La justice s’est en revanche prononcée ce même jour en faveur du blocage dans le cas du site Watchpeopledie.

  •  

☕️ Le ministère des Sports confirme une fuite de données concernant 3,5 millions de foyers

Le Ministère des Sports, de la Jeunesse et de la Vie associative a reconnu vendredi avoir été victime d’une exfiltration de données au niveau de l’un de ses systèmes d’information.

« Dès la détection de l’incident, les équipes techniques spécialisées du ministère ont été mobilisées afin de vérifier la nature et l’ampleur des données concernées, et de mettre en œuvre les mesures de sécurité adaptées pour faire cesser toute fuite de données », assure l’institution, avant de préciser qu’elle remplira ses obligations réglementaires de signalement et de dépôt de plainte.

En attendant, « un travail est en cours afin d’informer, dans les meilleurs délais, les 3,5 millions de foyers concernés, et de leur partager les recommandations et consignes de sécurité à suivre », indique le ministère. S’il confirme le nombre de comptes exposés, il ne donne à ce stade aucune précision quant à la nature des données personnelles enregistrées dans le système concerné.

Cette reconnaissance de compromission constitue, quoi qu’il en soit, un nouveau rebondissement dans l’imbroglio qui se joue depuis quelques jours, entre pirates supposés et institutions publiques.

Communiqué de presse du ministère des Sports, daté du 19 décembre

Comme nous le rapportions jeudi, un internaute surnommé Indra a affirmé mercredi disposer d’un fichier de 22 millions de lignes issu de la compromission d’une base de données associée à la Caisse d’allocations familiales, la CAF.

La CAF s’est elle aussi exprimée jeudi dans la journée, pour récuser toute intrusion dans ses systèmes.

« Les éléments diffusés par les pirates informatiques semblent provenir du système d’information d’autres services publics avec lesquels la Cnaf échange des données pour l’attribution de prestations ou services conditionnés par nos informations. Ces transmissions sont strictement encadrées par la loi et aucune atteinte technique à nos flux d’information n’a été constatée. »

Sur X, un commentateur de la scène cybersécurité, Christophe Boutry, s’était alors étonné de la nature du fichier présenté, et livrait une proposition d’analyse : le fichier aurait selon lui combiné quatre ans d’historiques, pendant lesquelles un même compte aurait pu faire l’objet d’enregistrements multiples.

Après déduplication, il suggérait que la base devait en réalité contenir 3,5 millions d’identifiants uniques, émanant de trois bases distinctes : la CAF, mais aussi la MSA (mutualité sociale agricole) et le CNOUS (Centre national des œuvres universitaires et scolaires, action sociale étudiante). « Seul le dispositif Pass’Sport croise ces trois bases. De plus, chaque ligne possède un ID spécifique id_psp », estimait-il alors.

L’analyse et le volume évoqué, 3,5 millions de comptes, confèrent à cette hypothèse un caractère plausible, même si le scénario n’est pas confirmé à ce stade.

Le dispositif Pass’Sport « a permis à plus de 5,2 millions de jeunes de bénéficier d’un soutien financier pour accéder à une activité sportive encadrée » d’après le ministère des Sports.

  •  

☕️ La justice ordonne le blocage de WatchPeopleDie par les principaux FAI français

Suite à une demande de l’Arcom faite en novembre dernier, la justice a ordonné aux principaux fournisseurs d’accès internet Orange, Free, Free Mobile, SFR, SFR Fibre et Bouygues Télécom de bloquer le site montrant des vidéos horribles de personnes en train de mourir dans diverses situations.

L’Informé avait révélé le signalement par l’autorité administrative au tribunal judiciaire de Paris, expliquant que « la ligne éditoriale de la plateforme est entièrement dédiée à publication de contenus illicites, violents et attentatoires à la dignité humaine ».

Le tribunal a pris sa décision ce jeudi 18 décembre, selon l’AFP qui a pu consulter le jugement. Le tribunal demande aux FAI de « mettre en œuvre, ou de faire mettre en œuvre, toutes mesures les plus adaptées et les plus efficaces propres à empêcher l’accès, à partir du territoire français et par leurs abonnés situés sur ce territoire » au site et ses miroirs sous quinze jours.

Comme l’expliquait L’Informé, l’Arcom s’appuyait sur l’article 6 - 3 de la loi sur la confiance dans l’économie numérique (LCEN), selon lequel « le président du tribunal judiciaire, statuant selon la procédure accélérée au fond, peut prescrire à toute personne susceptible d’y contribuer toutes les mesures propres à prévenir un dommage ou à faire cesser un dommage occasionné par le contenu d’un service de communication au public en ligne ».

Dans son ordonnance, que notre confrère Marc Rees a partagée sur LinkedIn, la juridiction relève que ce site, « non seulement n’est porteur d’aucune information, opinion ou idée (…) mais est à l’inverse entièrement dédié à la diffusion d’images extrêmement violentes, attentatoires à la dignité humaine et susceptibles de toucher et choquer un jeune public et d’avoir sur lui une influence néfaste ».

Non content de ne pas avoir de mentions légales, Watchpeopledie n’a en outre « jamais répondu aux demandes de retrait présentées par les autorités françaises », en particulier l’office anti-cybercriminalité de la direction générale de la police nationale (OFAC), relève Marc Rees.

Il souligne que le blocage du site « devra perdurer tant que durera la diffusion des contenus illicites », mais qu’il pourra être levé en cas de « cessation du dommage, disparition du site ou de désactivation du nom de domaine ».

  •  

 [Offert] On analyse les 10 millions de noms de domaines en .fr

Il restait un domaine avec un caractère, je l’ai acheté !
 [Offert] On analyse les 10 millions de noms de domaines en .fr

Depuis les débuts du .fr, près de 10 millions de noms de domaine ont été enregistrés. Nous les avons analysés afin d’en ressortir des statistiques (longueur, fréquence, récurrence, etc). Saviez-vous qu’il reste des milliers de noms de domaine disponibles avec deux caractères ? Quel était le premier nom avec 63 caractères ? Qu’il existe un site du « ministère de l’exploration urbaine » ?

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 9 septembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


L’Afnic (Association en charge des noms de domaines de la France) propose de nombreuses informations en open data, dont la liste de l’ensemble des noms de domaines en .fr existants ou ayant un jour existé, qu’ils aient duré moins d’une journée ou plusieurs décennies.

Ni une ni deux, nous téléchargeons l’archive d’un peu plus de 100 Mo, contenant un fichier CSV de près de 650 Mo une fois décompressé. Il contient près de 10 millions de noms de domaines (9 312 276 précisément).

Pour commencer, quelques statistiques. Un peu plus de 5 millions (53,7 %) ont une date de retrait dans le Whois, cela signifie qu’ils ne sont aujourd’hui plus actifs. Il reste donc pas moins de 4,3 millions de noms de domaines .fr valides.

30 ans d’historique du .fr

Attention, cela ne signifie pas qu’ils ont un site associé ni qu’ils répondent, ils appartiennent a priori à quelqu’un pour le moment, rien de plus. Le fichier débute au 31 décembre 1994 avec 343 créations ; ils n’ont pas tous été créés à cette date, mais sont tous datés du 31 décembre 1994.

En l’espace de 30 ans, la moyenne des créations des noms de domaine est d’un peu moins de 1 000 par jour, un chiffre qui double quasiment si on ne prend en compte que les dix dernières années. En 2024, la moyenne était de 2 150 domaines par jour, contre 2 300 pour la première moitié de 2025.

Cela ne surprendra personne, mais il y a environ deux fois plus de demandes les jours de semaine (avec une petite baisse de régime le vendredi) que les samedis et dimanches. Août est le pire mois de l’année en nombre d’enregistrements, suivi par juillet et décembre.

Le Top 3 des jours les plus productifs est le suivant : 7 mars 2012 avec 5 021 créations, 29 mars 2011 (4 628) et 18 mai 2004 (4 479). Cette date (qui a désormais plus de 20 ans) ne doit rien au hasard : « À partir du 11 mai 2004, toutes les personnes identifiables en ligne sur des bases de données publiques et nationales (entreprises, artisans, associations immatriculées à l’INSEE, détenteurs de marques…), pourront obtenir le nom de domaine qu’elles souhaitent sans que ce dernier figure sur quelque document que ce soit », expliquait l’Afnic.

Limites de l’open data, précisions de l’Afnic sur les données

Notre première analyse a consisté à vérifier si nous retrouvions les mêmes données que l’Afnic sur le nombre de domaines créés chaque année. Surprise, ce n’est pas la même chose, et pas à quelques (dizaines voire centaines de) domaines près. Un petit écart pourrait être laissé de côté, mais là c’est important et mérite un éclaircissement.

L’Afnic annonce par exemple plus de 802 000 créations en 2024, contre près de 790 000 dans le fichier, soit un écart d’un peu plus de 10 000 noms de domaines tout de même. Interrogée par Next, il y a quelque temps, l’Association nous expliquait avoir « déjà identifié l’origine de la différence. Cela concerne les noms déposés et supprimés dans les cinq jours ».

L’Association nous confirme que les créations sont bien au nombre de 802 000, « mais sur l’année, environ 10 000 noms ont été supprimés dans la période de cinq jours, permettant au bureau d’enregistrement de ne pas être facturé ». Dans ce genre de cas, les noms n’apparaissent pas dans les données en open data, bien qu’ils aient été comptabilisés dans les créations.

Nous notons également des différences entre les retraits du Whois des données en open data et celles publiées dans des communiqués. Pour l’Afnic, « les retraits ou suppressions figurant dans l’open data sont vraisemblablement ceux qui ont donné lieu à un ticket suppression. Les autres (abandon « tacite » par non-renouvellement) n’ayant pas fait l’objet de tickets, ne sont pas dans l’Opendata ».

Des écarts existent donc bien entre les données publiées par l’Afnic et celles proposées en open data, mais sont inhérents à la manière dont le fichier est constitué. Rien d’alarmant pour autant, ou qui nous empêche de réaliser une analyse sur des millions de noms de domaines.

Vous pouvez également remarquer qu’il n’y a aucune information sur des suppressions avant 2014. C’est normal : « Le suivi « fin » des suppressions a été mis en place fin 2013 quand nous avons monté notre premier système de BI [business intelligence, NDR]. Ces résultats ont pu être intégrés en 2014 dans l’open data », nous précise là encore l’Afnic.

Dernier point, qu’en est-il des noms de domaines qui ont changé de registrar au cours de leur vie, sans avoir été abandonnés entre temps ? Nous avons testé sur quelques domaines en .fr. La date de création reste bien celle signalée par le premier registrar lors de l’enregistrement initial, mais le nom du bureau d’enregistrement est mis à jour dans le fichier open data (sans toucher la date).

Maintenant que le décor est planté, passons à quelques statistiques. Sans surprise, la durée de vie la plus courte pour un nom de domaine est de… 0 jour. Pour les plus longs, elle dépasse les 30 ans. Sur les domaines sans date de fin dans le Whois, la moyenne de la durée de vie est de 6,5 ans, sachant que cela comprend aussi des domaines créés récemment, donc avec une durée pour le moment courte.

  • de 0 à 1 an : 838 649 domaines (709 821 sans date de fin, 128 828 avec une date de fin)
  • 1 à 2 ans : 2 412 353 domaines (558 101 sans date de fin, 1 854 252 avec une date de fin)
  • 2 à 5 ans : 2 801 662 domaines (1 046 412 sans date de fin, 1 755 250 avec une date de fin)
  • 5 à 10 ans : 1 871 426 domaines (942 592 sans date de fin, 928 834 avec une date de fin)
  • 10 à 15 ans : 843 942 domaines (569 560 sans date de fin, 274 382 avec une date de fin)
  • 15 à 20 ans : 406 696 domaines (354 831 sans date de fin, 51 865 avec une date de fin)
  • Plus de 20 ans : 137 548 domaines (129 564 sans date de fin, 7 984 avec une date de fin)

Sur les 343 domaines de 1994 (première date dans le fichier, impossible d’en savoir plus), 330 n’ont toujours pas de date de fin à l’heure actuelle, ils fêtent donc leur 30 ans. Renater est largement présent avec déjà 41 domaines en « univ- », 7 en « cnrs », etc. On retrouve évidemment de grands groupes et institutions comme airliquide.fr, bipm.fr, bnf.fr, bpi.fr, cea.fr, cnes.fr, dassault-systemes.fr, renault.fr, mais aussi des plus génériques comme geometre-expert.fr, cosytec.fr.

13,6 caractères en moyenne sur l’ensemble des .fr

Nous nous demandons ensuite comment se répartissent les noms de domaine en fonction de leur longueur. Sur les 9,3 millions, ils sont 108 à atteindre la taille maximale de 63 caractères, dont 15 sans date de fin dans le Whois. On reste dans la centaine pour 58 caractères et plus. La moyenne sur les près de 10 millions est de 13,6 caractères, tandis que la médiane est à 13 caractères.

Voici un résumé :

  • 1 à 5 caractères : 400 194 domaines
  • 6 à 10 caractères : 2 778 294 domaines
  • 11 à 15 caractères : 3 167 990 domaines
  • 16 à 20 caractères : 1 832 866 domaines
  • 21 à 30 caractères : 997 973 domaines
  • 30 et plus caractères : 134 960 domaines

Nous en profitons au passage pour étudier les domaines en fonctions de la présence de certains éléments, comme des chiffres, un tiret ou des caractères spéciaux :

  • Domaines avec chiffres : 656 208
  • Domaines avec tirets : 3 535 000
  • Domaines avec uniquement des lettres : 5 273 240
  • Domaines avec uniquement des chiffres : 7 549
  • Domaines avec des caractères spéciaux : 103 042

Nous avons ensuite regardé l’évolution du nombre de caractères dans les noms de domaines en .fr en fonction de l’année. Aux débuts du web, avant les années 2000, la moyenne était sous les 10 caractères et la médiane à 7/8 caractères. Au fils des années, la moyenne a augmenté pour atteindre son maximum dans les années 2011 à 2016 avec plus de 14 caractères. Depuis, c’est en légère baisse avec 13 caractères tout pile en 2025.

Que se passe-t-il avec les nom de domaines de 55 caractères ?

Actuellement, la grande majorité des noms de domaines encore actifs ont entre 7 et 15 caractères.

Le tableau de variation permet de soulever une petite anomalie dans la répartition : 412 domaines encore en service ont 55 caractères très exactement, alors qu’ils sont respectivement 181 et 47 avec 54 et 56 caractères. L’explication n’est pas à chercher bien loin.

Sur les 412 noms de domaine de 55 caractères, 384 sont sous cette forme : devis-installation-depannage-remplacement-chaudiere-xxx.fr avec trois chiffres (entre 100 et 514) à la place des xxx, et 21 domaines sous la forme devis-installation-depannage-remplacement-chauffeeau-xx avec des chiffres de 10 à 30. Ces domaines sont encore actifs aujourd’hui. Cela suffit à fausser les statistiques puisqu’on est généralement à moins de 200 noms de domaines sans date de fin à partir de 50 caractères.

Premier domaine à 63 caractères en 2009

Petit rappel des règles de l’Afnic : « Un nombre minimum et un nombre maximum de caractère(s) sont à respecter : 1 caractère minimum pour les noms de domaine en .fr et 3 caractères minimum pour les noms de domaine ultramarins (.re, .tf, .pm, .wf et .yt). Pour les .fr comme pour les ultramarins, la longueur maximum est de 63 caractères ».

Autre précision : les noms de domaine sous les zones .tm.fr, .asso.fr, .asso.re, .com.fr et .com.re sont fermés à l’enregistrement depuis le 15 mars 2013, mais sont maintenus en place pour les existants. De plus, certains domaines à deux caractères ne peuvent faire l’objet d’un enregistrement : « les noms de domaine suivants : fr.fr, re.fr, pm.fr, yt.fr, tf.fr, wf.fr, nc.fr, pf.fr, mf.fr, bl.fr, gp.fr, mq.fr, gf.fr, co.fr et nh.fr ainsi que leurs versions IDN », détaille l’Afnic.

Le premier nom de domaine à un seul caractère a été enregistré en 1997 (o.tm.fr), tandis que le plus long (63 caractères) date de 2009 avec portail-automatique-motorisation-amiens-picardie-key-automation.fr. Rien d’exceptionnel et aucune originalité… nous sommes presque déçus.

Aurons-nous plus de chance avec le premier domaine à 42 caractères (un geek y a-t-il pensé avant les autres) ? Même pas… puisqu’il s’agit de credit-agricole-maitrise-douvrage-deleguee.fr.

Heureusement, des noms plus originaux sont arrivés par la suite, notamment mondomaine-super-long-car-je-veux-avoir-le-domaine-le-plus-long.fr ou cestimpossiblequejemesouviennedecetteadresseinternetaussilongue.fr… Mais c’est une autre histoire que nous raconterons prochainement dans la suite de notre dossier.

Voici la liste des premiers noms de domaine de chaque longueur (après 2000) et leur date de création.

66 domaines avec un seul caractère

À l’extrême opposé des noms les plus longs, une soixantaine de noms de domaines ne contiennent qu’une seule lettre. Bien évidemment, tout l’alphabet (y compris en version internationale, alias IDN), avec ou sans accent, y passe. Cela correspond, depuis 2012, aux caractères suivants : a, à, á, â, ã, ä, å, æ, b, c, ç, d, e, è, é, ê, ë, f, g, h, i, ì, í, î, ï, j, k, l, m, n, ñ, o, ò, ó, ô, õ, ö, œ, p, q, r, s, t, u, ù, ú, û, ü, v, w, x, y, ý, ÿ, z, ß, 0, 1, 2, 3, 4, 5, 6, 7, 8 et 9.

Ne cherchez pas un nom de domaine avec un seul caractère ASCII (a à z, 0 à 9) libre ; il n‘y en a plus aucun de disponible. Si on passe aux caractères IDN (66 caractères possibles, contre 36 en ASCII), il en reste un seul avec un caractère (il a été libéré en mai 2023, après une création en mars 2020).

Donc, oui, a.fr, å.fr, ç.fr, ß.fr, é.fr et autres 0.fr sont déjà pris. Seule exception au moment d’écrire cette actu : ý.fr. Du moins il l’était… nous n’avons pas résisté et avons passé commande. Notez pour la petite histoire que ce nom de domaine est soumis à examen préalable. Pour le moment, notre commande n’est toujours pas validée par l’Afnic.

Des milliers de disponibles avec 2 caractères

Passons maintenant à deux caractères. Les portes de la création sont grandes ouvertes avec près de 3 000 domaines disponibles : aà, aá, aâ, aã, etc. Ne comptez par contre pas trouver une combinaison trop évidente comme ab.fr ou 12.fr.

Au total, 4 356 combinaisons existent avec deux caractères, 287 496 avec trois, près de 19 millions avec quatre, plus de 1,2 milliard avec cinq caractères, etc. Il y a de la marge ! Avec trois caractères en ASCII uniquement (sans les caractères spéciaux donc), il y a 46 656 possibilités, 1,6 million avec quatre, plus de 60 millions avec cinq, etc.

Voici quelques exemples de noms de domaine avec deux caractères qui ont un jour été enregistrés, mais qui sont désormais libérés : àà.fr, àç.fr, àf.fr, àt.fr, ââ.fr, ää.fr, åå.fr, ææ.fr, bâ.fr… Ceux-ci sont actuellement pris : çç.fr, aa.fr, bb.fr, ôs.fr, œœ.fr… Enfin ces derniers apparaissent totalement libres (et jamais enregistrés) : àæ.fr, âœ.fr, ïá.fr, 9ß.fr…

Les mots et combinaisons les plus fréquents

Passons maintenant à un top maison des mots que l’on retrouve dans des noms de domaine. « France » est présent dans plus de 100 000 d’entre eux, contre 95 000 pour « Paris ». Voici le Top 10 des villes :

  1. Paris : 95 427
  2. Lyon : 24 397
  3. Bordeaux : 13 809
  4. Marseille : 13 264
  5. Toulouse : 12 847
  6. Nice : 12 107
  7. Nantes : 9 555
  8. Lille : 9 469
  9. Montpellier : 8 139
  10. Rennes : 6 201

Le mot « service » est présent dans plus de 73 000 noms de domaines. Maison et sport sont à plus de 50 000. Conseil, formation et avocat sont aussi bien présents avec plus de 40 000 résultats. Immobilier et ville sont à plus de 35 000, hotel à 31 000, pharmacie à 27 000, media et consulting à 25 000, pizza à 19 000, etc. Rien de vraiment surprenant en soi.

En fouillant un peu, on retrouve aussi des patterns bien plus spécifiques, comme installation-depannage-remplacement qui est présent 514 fois. De manière générale, les métiers comme plombier (22 500), serrurier (18 000), électriciens (11 000) et chauffagiste (6 000) sont bien présents.

Voici le Top 20 des métiers :

  1. electricien : 23 318
  2. plombier : 22 503
  3. serrurier : 17 820
  4. macon : 11 939
  5. couvreur : 8 407
  6. vitrier : 7 227
  7. chauffagiste : 6 378
  8. boucher : 5 779
  9. boulanger : 5 321
  10. peintre : 3 888
  11. fleuriste : 3 712
  12. coiffeur : 3 514
  13. jardinier : 2 532
  14. menuisier : 2 025
  15. demenageur : 1 674
  16. plaquiste : 1 600
  17. fromager : 1 494
  18. ebeniste : 1 414
  19. charpentier : 1 108
  20. carreleur : 943

Tout ce qui est service remonte aussi dans les résultats : 21 000 pour renovation , 12 000 pour depannage (et aussi 51 pour « depanage » avec un seul n), 4 000 pour terrassement et pompes-funebres. D’autres sont plus opportunistes comme les 273 punaisesdelit (172 punaises-de-lit), 90 intelligence-artificielle et 49 intelligenceartificielle. Pour une fois, l’IA n’est pas au top de la hype !

Niveau voiture, renault (2 820) arrive en tête devant peugeot (1 726). Citons également tesla (1 163, mais attention certains noms de domaines sont aussi le début de t’es la -> t es la -> tesla), bmw (1 119), mercedes (769) et dacia (607). Il y a des amateurs de littérature dans le tas, avec 50nuancesdeteintesrenault.fr

Quelques dernières séries pour la route : mariage (11 566), manger (1 458), caca (1 053), divorce (882), puzzle (782), police (674), windows (555), Microsoft (389), outlook (102), password (103) et motdepasse (42). On ne passera pas à côté : sex est présent dans 15 825 domaines, porn dans 3 987, sexe dans 3 721, porno dans 1 636, etc.

Voici notre Top 20 des mots qui reviennent le plus souvent dans les noms de domaines :

  1. france : 109 290
  2. paris : 95 427
  3. service : 73 793
  4. entre : 57 469
  5. maison : 55 754
  6. sport : 52 919
  7. group : 52 674
  8. saint : 52 499
  9. conseil : 46 445
  10. atelier : 43 347
  11. formation : 43 262
  12. photo : 42 305
  13. avocat : 40 115
  14. immobilier : 39 446
  15. serie : 36 070
  16. ville : 35 908
  17. studio : 35 698
  18. design : 35 654
  19. restaurant : 32 876
  20. groupe : 31 778

Politique, guerre, Covid, ChatGPT…

Le 21 mars 2018, quelques mois avant l’annonce officielle du nouveau parti, plus de 200 noms de domaines contenant rassemblementnational ou rassemblement-national ont été créés, notamment rassemblementnationalxx avec xx de 01 à 95.

Deux ans plus tard, le covid a aussi fait exploser les compteurs avec pas moins de 721 domaines contenant covid19 et 172 avec covid-19. Près de 600 et 150 respectivement ont une date de fin dans le Whois.

Certains sont allés loin : panneau-information-entreprise-covid-19.fr, fr-precautionslutte-againstcovid-19.fr, covid-19game.fr, covid19-medecinechinoise-france.fr, covid19-chloroquine.fr (durée de vie : moins de trois mois), wastewatersurveillanceduringthecovid19pandemic.fr. Juste avec covid, on dépasse les 2 600… dont près de 2 200 ont désormais une date de fin dans le Whois.

La guerre en Ukraine aussi a été l’occasion de nombreuses créations. Il y a 274 domaines dans le fichier de l’Afnic, dont 176 avec une date de fin. Certains datent d’avant l’invasion par la Russie, mais la grande majorité a été créée en 2022 ou après.

Un dernier pour a route : ChatGPT. L’IA générative d’OpenAI a inspiré les internautes avec pas moins de 266 noms de domaine… dont 149 avec une date de fin dans Whois. Dans les créations, nous avons des noms comme chatgptjo2024.fr, formationingenieurpromptchatgpt.fr, chatgpt-hacked.fr, chatgptimmobilier.fr et même un chatgpt-sex qui est encore actif et propose des discussions coquines… qui tournent trèsvites à des discussions tarifées.

Préfixes et suffixes en www, https, -gouv, -fr…

Les noms de domaines commençant par « www » sont aussi très nombreux, avec plus de 2 200 résultats. Certaines sociétés présentes en ligne réservent aussi la version wwwdomaine.fr de leur domaine.fr pour éviter un typosquatting.

C’est par exemple le cas d‘Yves Rocher et des 3Suisses. Mais attention, cela peut aussi être des tentatives de phishing (un site en wwwdomaine.fr se faisant passer pour www.domaine.fr), prudence ! On ne peut d’ailleurs que vous conseiller d’installer notre extension, qui intègre la liste de Red Flag Domains.

Il y a également 426 noms de domaine débutant par HTTP, dont 176 en HTTPS, 15 en HTTPSWWW et 9 HTTPWWW. La plupart ne sont plus actifs. Erreur, volonté de réserver toutes les variations ou tentative d’arnaques, toutes les options sont malheureusement sur la table.

Voici quelques exemples :

  • httpswwwcritair-officiel1
  • httpswwwfacebookcomphotophpfbid500865513307069seta13744355
  • httpswww-sophrologue-betty.fr
  • httpauto-ecole-coubertin
  • httpcatherine-lechien-cotrel-gestalt
  • httpcodeoups
  • www-amazon
  • wwwapple

Ministère de l’exploration urbaine en « -gouv.fr »

Nous tombons aussi sur un nom de domaine pour le moins surprenant : urbex-gouv.fr. Un ministère de l’exploration urbaine ? Oui, mais certainement pas un établissement public officiel.

Pourtant, les noms de domaines en -gouv.fr sont réglementés depuis la charte de nommage du 15 septembre 2021. L’Afnic nous explique ce qu’il en est : « Effectivement, la nouvelle règle concernant les noms de domaine en « -gouv.fr » n’a pas d’effet rétroactif, l’interdiction ne concerne que les nouvelles créations ».

Les noms de domaines en -gouv peuvent aussi faire l’objet de « contournements ». Un exemple avec antai-gouv-fr[.]fr, créé en 2023 est relativement proche du vrai antai.gouv.fr. Il appartient à la société Hucy, qui se présente comme proposant de la sensibilisation et formation en cybersécurité. Actuellement, le domaine renvoi vers une page « site en construction ». On se souvient aussi du qouv.fr.

Il n’y a pas que le .fr dans la vie (et les tentatives d’arnaques)

Attention, les .fr ne sont pas les seuls domaines concernés. Nicolas Pawlak de Red Flag Domain le rappelait en août avec la création de rentre-gouv.com. Le site propose « la vente de kits scolaires soit-disant déductibles des impôts à hauteur de 80 %, et même 100 % pour les boursiers, via France Connect ! La plate-forme se présente comme validée par l’Éducation Nationale, avec livraison à domicile ou dans la mairie de son choix… le tout, à grand renfort d’IA, y compris pour le faux sujet du 20H de TF1 au ton particulièrement promotionnel. Évidemment, le RNA de l’association éditrice du site n’existe même pas… ».

Le domaine était enregistré sur LWS, qui a « engagé la procédure de suspension du nom de domaine concerné » suite au signalement. L’hébergeur rappelle qu’il a « mis en place des bannissements automatiques pour certains mots-clés sensibles et un système d’alerte avec surveillance manuelle pour d’autres ». Dans ce cas, « aucun contenu frauduleux n’était présent » lors de la vérification, mais le domaine est resté « sous surveillance renforcée et, dès qu’une activité illicite a été constatée, le service a été immédiatement suspendu ».

Consultez aussi la deuxième partie de notre dossier :

  •  

☕️ Firefox aura un « kill switch » pour ses fonctions IA

L’arrivée du nouveau CEO de Mozilla, Anthony Enzor-DeMeo, ne s’est pas faite dans le calme. Les premières déclarations du nouveau patron ont confirmé que Firefox allait se plonger dans l’IA. Il a insisté également sur la confiance, affirmant que Mozilla devait devenir une référence dans ce domaine. Ce qui impliquait un travail sur l’IA en accord avec le Manifeste de la fondation.

Rapidement, des conversations enflammées sont apparues : Firefox allait-il perdre son âme ? La concentration sur l’IA allait-elle la rendre inévitable ? Dans quelle mesure le navigateur allait-il changer ? Des débats parfois houleux, avec de nombreuses déclarations d’intentions : il allait falloir se débarrasser de Firefox, qui avait succombé à la nouvelle mode.

La situation a assez chauffé pour que Mozilla prenne la parole, via Jake Archibald, l’un des développeurs du navigateur. Sur Mastodon, il pointe « quelque chose qui n’a pas été clairement expliqué : Firefox aura une option pour désactiver complètement toutes les fonctionnalités d’IA. Nous l’appelons en interne le kill switch de l’IA. Je suis sûr qu’il sortira avec un nom moins meurtrier, mais c’est dire à quel point nous prenons cela au sérieux ».

Pour rappel, un « kill switch » est un dispositif d’arrêt d’urgence permettant de couper sans délai une fonction ou un service. Le terme renvoie souvent au caractère absolu et arbitraire de l’action. Apple et Google disposent par exemple d’un « kill switch » pour leurs boutiques respectives. Il permet de couper rapidement la distribution d’une application et d’exécuter un ordre de suppression sur les terminaux.

Jack Archibald a également précisé que les fonctions IA seraient en « opt-in ». Il estime que le terme tombe parfois dans des « zones grises » car il peut revêtir un sens différent selon les personnes. « Par exemple, un nouveau bouton sur une barre d’outils est-il opt-in ? », demande-t-il.

Bien que le message se soit voulu rassurant, il a été immédiatement suivi de nouveaux débats.

  •  

S3NS obtient la qualification SecNumCloud par l’ANSSI

First !
S3NS obtient la qualification SecNumCloud par l’ANSSI

C’est fait : la coentreprise S3NS, créée par Thales et Google, vient d’obtenir la qualification SecNumCloud 3.2 pour l’ensemble de son offre PREMI3NS, dédiée au cloud de confiance. Une étape marquante, que le concurrent Bleu devrait atteindre très bientôt aussi.

S3NS est une coentreprise créée en 2022 par Thales et Google. Son objectif est simple : proposer du cloud Google dans une offre « cloud de confiance » avec des arguments forts de souveraineté. La question de l’extraterritorialité revenait régulièrement sur la table : si S3NS utilise les technologies de Google, les produits proposés par la coentreprise seront-ils soumis au Cloud Act ?

La réponse vient d’arriver sous la forme d’une qualification SecNumCloud 3.2 par l’ANSSI. Une annonce majeure, qui fait de S3NS la première structure hybride de ce type à recevoir le précieux label, presque 18 mois après la validation du premier jalon du processus. Ce n’est pas une surprise puisque Vincent Strubel avait quasiment vendu la mèche en juin dernier lors d’une audition au Sénat.

« Nouvelles perspectives »

L’ANSSI a validé l’intégralité de la plateforme de l’offre PREMI3NS, dédiée au cloud de confiance. Celle-ci est disponible depuis plusieurs mois via un programme « early adopters ». Selon S3NS, une trentaine de clients l’utilisent déjà. Elle dit également accompagner des entreprises dans leur migration vers le « cloud de confiance », dont les assurances MGEN, Matmut et AGPM, ainsi que des sociétés comme le Club Med, Qonto ou même Thales elle-même. S3NS ajoute qu’EDF a choisi aussi ses services, mais la coentreprise n’est pas la seule : Bleu a également été sélectionnée.

Crédits : S3NS

L’arrivée de la qualification SecNumCloud est dans tous les cas une étape majeure, dûment célébrée par S3NS. « L’obtention du Visa de sécurité ANSSI pour la qualification SecNumCloud 3.2 marque l’aboutissement d’une collaboration unique entre deux leaders du cloud et de la cyber, et ouvre de nouvelles perspectives pour l’ensemble du marché français et européen. Ce cloud qualifié SecNumCloud 3.2 propose une offre de services équivalente à celle des clouds publics les plus avancés. PREMI3NS permettra ainsi à ses clients d’innover, d’optimiser, de se transformer en toute confiance et sécurité sur leurs périmètres sensibles. Le groupe Thales a d’ailleurs choisi S3NS pour son informatique interne et pour son ingénierie sensible », a déclaré Christophe Salomon, directeur général adjoint de Thales.

S3NS se retrouve ainsi dans une position unique (pour l’instant) : c’est la première coentreprise hybride de ce type à recevoir cette qualification. Celle-ci est lourde de sens, puisque parmi son millier de points de contrôle, l’imperméabilité à l’extraterritorialité des lois étrangères (au sens extra-européen) est un prérequis. Conséquence, l’ANSSI valide ce point pour PREMI3NS : l’offre n’est pas concernée par le Cloud Act, entre autres lois étrangères problématiques pour l’Europe. En outre, la qualification s’applique à l’ensemble du périmètre fonctionnel de l’offre, donc ses composantes IaaS (Infrastructure-as-a-Service), CaaS (Containers as a Service) et PaaS (Platform-as-a-Service).

S3NS rappelle fièrement que le « référentiel SecNumCloud est le standard le plus exigeant en Europe en matière de sécurité du cloud ». La version 3.2 du référentiel servait d’ailleurs de base au niveau High+ d’EUCS, la directive qui devait aboutir au classement des offres cloud par niveaux de sécurité. Cette version a été abandonnée, sous l’influence notamment de l’Allemagne, au grand dam de la France.

Une offre plus large en 2026

À l’Usine Digitale, plusieurs responsables ont confirmé un plan de bataille pour 2026, largement tourné vers l’ajout de fonctions. L’offre PREMI3NS propose en effet une bonne partie des services disponibles sur Google Cloud Platform, mais pas tous. Il manque en outre de nombreux produits liés à l’IA.

La coentreprise a ainsi déclaré à nos confrères qu’elle comptait doubler son catalogue de fonctions l’année prochaine. Vertex AI est décrit comme une priorité. Avec les mêmes capacités que sur GCP ? « Je ne peux pas encore vous dire si nous offrirons plus de 200 modèles de langage comme sur GCP public, mais nous en aurons beaucoup », a déclaré Cyprien Falque, directeur général de S3NS, à l’Usine Digitale. Devrait suivre tout ce qui touche aux agents et à la sécurité.

Les équipes, en revanche, ne grandiront pas beaucoup plus, a indiqué Hélène Bringer, présidente de S3NS. Elle a évoqué « quelques personnes de plus » pour compléter les 200 personnes actuellement employées par l’entreprise, qui a « vocation à rester agile et de petite taille ».

Vincent Strubel, directeur général de l’ANSSI, a réagi avec enthousiasme à la nouvelle. « Une qualification de l’ANSSI, ce n’est jamais une promenade de santé, mais là c’est plus vrai que jamais, vu l’ampleur du périmètre », a-t-il ajouté.

Il en a profité pour lancer une pique aux détracteurs : « Je ne doute pas que cela déclenchera des réactions passionnées, mais il est peu probable que les auteurs de ces réactions aient passé autant de temps que nous à tester votre solution sous tous les angles avant d’émettre leur avis péremptoire. Ce sera néanmoins utile dans les prochains mois de poursuivre l’effort de pédagogie pour expliquer que vous faites beaucoup, beaucoup plus que revendre en marque blanche la technologie d’un autre ».

Une question de souveraineté

De manière intéressante, le communiqué de S3NS cite la localisation française de ses centres de données, l’exigence de qualification SecNumCloud, ou encore l’intérêt croissant d’autres structures européennes pour ce type d’offre. Le mot « souveraineté » n’apparait pourtant nulle part, alors que le sujet est central et particulièrement actif depuis plusieurs mois. C’est d’autant plus le cas qu’un rapport salé de la Cour des comptes a mis en avant les défaillances françaises et un manque flagrant de cohérence.

Si la qualification SecNumCloud vient valider l’approche de S3NS (Bleu devrait suivre rapidement), sa complexité n’a pas changé. La structure hybride suppose en effet que les produits de Google sont acquis (Microsoft dans le cas de Bleu) sur une base de logiciels installés séparément des serveurs de Google. L’éditeur américain fournit le code, mais n’héberge rien. Ce qui signifie aussi un retard dans le déploiement des fonctions, car S3NS doit analyser toutes les mises à jour avant de les répercuter. La problématique est la même pour Bleu, comme l’entreprise nous l’avait expliqué en octobre dernier.

S3NS rejoint néanmoins une très courte liste d’acteurs français ayant obtenu une qualification SecNumCloud. Bleu devrait annoncer la sienne prochainement. L’entreprise a d’ailleurs annoncé il y a quelques jours que son « cloud de confiance » avait été choisi par Dassault Aviation.

  •  

☕️ TikTok US : accord bouclé

Un mémo interne à TikTok, qu’Axios a pu consulter, confirme que ByteDance et le gouvernement états-unien sont bien arrivés à un accord, comme l’avait annoncé la publication d’un executive order de Donald Trump en septembre dernier.

Selon ce texte envoyé par le CEO Shou Chew aux salariés, l’accord sera signé le 22 janvier et une coentreprise basée aux États-Unis sera créée.

TikTok

Les entreprises américaines Oracle et Silver Lake et l’émiratie MGX auront chacune 15 % de cette coentreprise.

De son côté, ByteDance devrait détenir 19,9 % de la nouvelle entité et 30,1 % seraient possédés par diverses filiales de l’entreprise chinoise.

Ainsi, comme l’explique le Financial Times, cela laisserait à ByteDance le contrôle direct de ses activités commerciales principales aux États-Unis. Selon le journal économique britannique, le mémo interne indique, par contre, que le « conseil d’administration [sera] composé de sept membres, majoritairement américains ».

D’après le mémo, la coentreprise « fonctionnera comme une entité indépendante ayant autorité sur la protection des données, la sécurité des algorithmes, la modération des contenus et l’intégrité logicielle aux États-Unis, tandis que les entités américaines de TikTok Global géreront l’interopérabilité des produits à l’échelle mondiale et certaines activités commerciales, notamment le commerce électronique, la publicité et le marketing ».

L’accord devrait valoriser TikTok US aux alentours de 14 milliards de dollars, selon une source d’Axios.

  •  

☕️ Étoile montante du vibe coding, Lovable lève 330 millions de dollars

La startup suédoise Lovable vient d’annoncer avoir réuni 330 millions de dollars auprès d’investisseurs, sur la base d’une capitalisation fixée à 6,6 milliards de dollars. L’opération intervient seulement cinq mois après la première grande levée de fonds de l’entreprise (série A), bouclée en juillet. Elle avait alors réuni 200 millions de dollars en se valorisant 1,8 milliard de dollars. Lovable a donc plus que triplé sa valeur aux yeux des investisseurs en à peine cinq mois.

L’opération annoncée jeudi est menée majoritairement par des fonds très présents dans la tech et dans la Silicon Valley, parmi lesquels Menlo Ventures (investisseur historique d’Anthropic ou d’Uber), CapitalG (Alphabet / Google) et d’autres véhicules financiers représentant des groupes tels que NVIDIA, Atlassian ou Databricks.

Le tour de table réunit des acteurs historiques de la Silicon Valley

Pourquoi une telle traction ? Lovable, fondée en 2023 et basée à Stockholm, est l’étoile montante de ce qu’on appelle le vibe coding, c’est-à-dire le développement d’applications (web ou métiers) par l’intermédiaire d’interactions avec un agent conversationnel IA. La startup, qui vise des publics non techniques, se positionne comme un intermédiaire entre les solutions telles que Claude Code, Mistral Code ou les récents Devstral 2 et Antigravity, qui restent encore l’apanage des développeurs, et les outils issus de la tendance no-code, moins évolués au niveau fonctionnel.

« Nous avons lancé Lovable pour donner les moyens aux 99 %ceux qui ont des idées mais qui n’ont pas les compétences techniques pour les concrétiser », vante l’entreprise. Elle revendique 100 000 nouveaux projets lancés sur sa plateforme chaque jour, 25 millions de projets créés au cours de sa première année d’activité, et affirme que les sites Web ou applications lancés par l’intermédiaire de ses services représentent une audience de plus de 200 millions de visites mensuelles. Lovable se targue par ailleurs de compter quelques clients de premier plan comme Zendesk, Uber, ou Deutsche Telekom.

La startup indique que les fonds levés lui serviront à développer les connecteurs nécessaires à son intégration dans les applications courantes des équipes produit (Jira, Notion, Miro, etc.), ainsi qu’à renforcer ses infrastructures, notamment pour accompagner les projets passés en production.

Lovable facture ses services sur la base d’un abonnement, auquel peut s’ajouter l’achat de crédits pour augmenter le nombre d’interactions permises avec ses outils. Le coût d’une action est estimé en fonction de sa complexité, explique l’entreprise. Elle revendiquait en novembre dernier un revenu annuel récurrent (ARR) supérieur à 200 millions de dollars, et attribuait une partie de son succès à son refus de délocaliser ses activités vers la Silicon Valley. Les capitaux de cette dernière semblent en revanche tout à fait bienvenus.

  •  

☕️ Linux Mint 22.3 (avec Cinnamon 6.6) a sa bêta publique

La distribution Linux Mint, très appréciée, aura bientôt une version 22.3 intermédiaire (nommée Zena), avec à son bord quelques nouveautés importantes. La bêta est disponible depuis ce 18 décembre, mais la phase de test sera assez courte, puisque la version finale est attendue pour la toute fin d’année ou les premiers jours de 2026.

Le changement le plus significatif est l’arrivée de Cinnamon 6.6, dont nous avons parlé il y a peu. On y retrouve un nouveau menu d’applications plus personnalisable, la possibilité d’utiliser des icônes pleines ou symboliques, un meilleur support de Wayland, l’affichage des dossiers usuels ou encore une réorganisation générale, dans l’idée de rendre le menu plus efficace. Cette version 6.6 introduit de multiples autres changements, notamment dans les paramètres, avec l’apparition d’un module dédié au Thunderbolt par exemple.

Outre le nouveau Cinnamon, Zena introduit des améliorations bienvenues comme la possibilité de mettre en pause une opération de fichier dans Nemo, l’arrivée de nouveaux outils Information Système et Administration Système, un classement des notifications par applications, une option permettant de mettre en pause la création d’instantanés (snapshots) dans Timeshift, ou encore une fonction Night Light toujours active.

Rappelons que les versions de Linux Mint sont toujours basées sur les dernières révisions LTS d’Ubuntu. Zena est ainsi basée sur Ubuntu 24.04.03 et embarque un noyau Linux 6.14. L’arrivée d’Ubuntu 26.04, « Resolute Raccoon », servira de fondation à la future version 23 de Linux Mint.

  •  

Un quart des Français visitent les sites d’infos générées par IA recommandés par Google

KO Boomers
Un quart des Français visitent les sites d’infos générées par IA recommandés par Google

14 à 16 millions d’internautes français consultent chaque mois l’un des 251 sites d’infos GenAI les plus recommandés par Google et identifiés par Next, selon une étude de Médiamétrie pour le Groupement des éditeurs de services en ligne. Près des trois quarts (74 %) de ces internautes ont plus de 50 ans, au point que ces derniers visitent plus de sites d’infos GenAI que de vrais sites d’actualités. 77 % y sont envoyés par l’un des services de Google (Discover, Search ou Actualités), et 10 % via Meta.

Dans la mesure où la lutte contre la désinformation nous semble un enjeu de salubrité (numérique) publique, cet article, en principe réservé aux lecteurs premium de Next, est exceptionnellement en accès libre pour 24 heures. Ce sont vos abonnements qui rendent possible ce genre d’enquête au long cours, merci !


« Plus de 1 000 médias en français, générés par IA, polluent le web (et Google) », titrait Next en février dernier, dans le tout premier de la vingtaine d’articles que nous avons depuis consacrés à ce que nous qualifions de « véritable « pollution » numérique et médiatique ».

Nous précisions alors avoir « de bonnes raisons de penser qu’il en existerait plusieurs milliers », mais également avoir « identifié une centaine de ces pros de l’info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d’autres se seraient lancés dans ce douteux (mais lucratif) « business » ». Nous avons depuis identifié près de 8 900 sites « en tout ou partie générés par IA » (GenAI), administrés (et monétisés) par plus de 200 éditeurs.

Début octobre, Next révélait que près de 20 % des 1 000 sites d’info les plus recommandés par Google Discover, et 33 % des 120 sites les plus recommandés par Google News, à la rubrique Technologie, étaient générés par IA.

L’algorithme Discover de « recommandation de contenus » de Google, la principale source de trafic des sites journalistiques français, est en effet devenu une « pompe à fric » pour les sites monétisés par la publicité, majoritairement financés par… la régie publicitaire de Google. Au point que de nombreux professionnels du référencement et du marketing numérique s’y sont lancés, attirés par l’appât du gain.

Perdu dans le jargon ? Petit lexique pour s’y retrouver


Discover : la mission historique de Google est d’amener des réponses aux requêtes des internautes, mais le moteur développe depuis des années des outils de recommandation, qui sélectionnent automatiquement des contenus et les affichent aux utilisateurs de Google, de Chrome et d’Android. Sur mobile, les suggestions Discover sont par exemple visibles dès l’interface du système d’exploitation. Elles sont devenues la principale source de trafic des médias français.

Poper : de l’anglais to pop, qui signifie sauter ou éclater. Ce terme est utilisé par les professionnels du référencement pour désigner la capacité à faire apparaitre un site ou un contenu donné au sein des outils de recommandation automatisés.

SEO : de l’anglais search engine optimization, soit optimisation pour les moteurs de recherche. Le terme recouvre à la fois les pratiques techniques ou éditoriales visant à favoriser l’apparition d’un site dans les moteurs de recherche, et l’activité de service qui s’est créée autour de cet objectif.

16 millions d’internautes par mois, soit plus d’1/4 de la population française

Next a depuis été contacté par le Groupement des éditeurs de services en ligne (GESTE, qui en fédère plus d’une centaine), et l’entreprise de mesure d’audience Médiamétrie. Cherchant à quantifier le phénomène à l’échelle du marché, nous leur avons proposé d’analyser l’audience des 251 sites GenAI figurant ou ayant figuré dans le Top1000 des sites recommandés par l’algorithme Discover de Google (retrouvez l’étude intégrale en pied de cet article, et le communiqué du GESTE).

À notre grande surprise, le panel de près de 20 000 internautes constitué par Médiamétrie indique que ces 251 sites enregistrent en moyenne, depuis le début de l’année, entre 14 et 16 millions de visiteurs uniques (VU) par mois, soit plus d’un quart de la population française de plus de 15 ans.

Les plus de 50 ans visitent plus de sites GenAI que de vrais sites d’infos

Seconde découverte, elle aussi accablante : la surreprésentativité des « inactifs », et des plus de 50 ans. D’après le panel de Médiamétrie, 52% des visiteurs quotidiens de sites GenAI seraient inactifs (hors étudiants), contre 42% dans l’audience quotidienne des sites d’actualités, alors qu’ils ne représenteraient que 29 % de la population.

Et si les personnes de 50 à 64 ans et de plus de 65 ans représentent chacun 23 % de la population française, elles représentent 31 et 43 % des internautes consultant des sites GenAI dans le mois, soit près des trois quarts (74 %) d’entre eux, alors qu’ils ne représenteraient que 46 % de la population.

A contrario, les 15 - 24 ans et les 25 - 49 ans, qui représenteraient respectivement 14 et 35 % de la population, ne constituent que 3 et 23 % des internautes consultant des sites d’infos générées par IA. Les personnes âgées semblent en effet plus particulièrement susceptibles de tomber dans le piège de ce type d’infox et images GenAI, au point d’être qualifiées de « pièges à boomers », ou « boomer traps ».

Si 24,5 % des internautes du panel de Médiamétrie ont consulté au moins un site GenAI dans le mois, le taux s’élève à 30,6 % chez les CSP+, 34 % chez les inactifs (hors étudiants), 37,5 % chez les 50 - 64 ans et 36,7 % chez les plus de 65 ans.

L’analyse du panel de Médiamétrie indique en outre que si les internautes de moins de 50 ans visitent plus de sites figurant dans le Top10 des sites d’actualités que de sites GenAI, les plus de 50 ans visitent plus de sites d’infos générées par IA que de vrais sites d’infos.

L’étude de Médiamétrie montre également que les visiteurs de sites GenAI « surconsomment Internet » : 84 % d’entre-eux consultent en effet quotidiennement des sites d’informations, contre 36 % des internautes en moyenne.

Pour autant, si les internautes passent en moyenne 11 minutes 14 secondes par jour sur les sites d’actualité, à raison de 10 pages par internaute, et de 1 minute 8 secondes par page, le temps passé sur les sites GenAI ne serait, lui, que de 1 minute 15, pour 3 pages par jour, et 25 secondes par page seulement.

L’application de recommandation de contenus liée à l’algorithme Discover n’étant pas (encore) disponible sur les ordinateurs de bureau, 88,8 % de ces visiteurs uniques de sites GenAI l’ont fait depuis leurs téléphones mobiles ou tablettes.

Et si 10 % d’entre-eux avaient cliqué sur un lien partagé sur les plateformes de Meta (Facebook voire Instagram), 77 % (soit plus des trois quarts) y avaient été envoyés via l’un des services de Google (Discover, Search ou Actualités, hors GMail).

Et ce, alors que Google n’a de cesse de répéter, depuis des mois, que ses « systèmes antispams » excluent « 99 % […] des contenus de faible qualité ». Un chiffre qu’un responsable de l’équipe Trust and Safety de Google vient pourtant de relativiser… en se référant aux enquêtes de Next !

Next, fournisseur (non-)officiel de punchlines de Google Trust and Safety

Intervenant début décembre à Search Central Live Zurich 2025, un évènement dédié aux professionnels du SEO et du marketing digital, Andres Almeida, directeur adjoint de l’équipe Trust and Safety de Google, reconnaissait en effet que l’AI Slop (du nom donné à ces contenus bas de gamme générés par IA) « envahit le monde et [que] Discover n’est pas à l’abri ».

Il évoquait notamment le fait que nombre de ces sites reposent sur des fermes de contenus (Private Blog Networks, ou PBN en anglais) basés sur des noms de domaines expirés (afin de capitaliser sur leur réputations passées dans le ranking de Google), le recours à des techniques de « black hat SEO » (cherchant à « hacker » les algorithmes du moteur de recherche), et expliquait vouloir endiguer ce type de « spam ».

Or, une des slides utilisées pour illustrer sa démonstration reprenait, traduits en anglais, les titres (et sous-titres) de deux de la vingtaine d’articles que nous avons consacrés depuis février à cette pollution du web en général et de Google en particulier par des infos générées par IA : celui qui pointait du doigt le fait que près de 20 % des 1 000 sites d’info les plus recommandés par Google Discover étaient générés par IA, et celui qui expliquait les motivations de leurs éditeurs : « « gruger Google » pour faire du fric ».

Notre base de données des sites d’infos générées par IA en dénombre désormais près de 8 900 (rien qu’en français). Pour en avoir le coeur net, nous en avons soumis un échantillon restreint à Médiamétrie afin de réaliser cette première analyse du trafic enregistré par les sites GenAI à ceux qui avaient été les plus recommandés par Google Discover.

Au vu des pertes de revenus publicitaires que subissent les médias parasités et de la monétisation de la plupart des sites GenAI par AdSense, la régie publicitaire de Google se retrouve juge et partie. Concurrencés par les sites GenAI, les médias subissent par ailleurs des pertes de trafic, susceptibles d’affecter le montant des droits voisins que leur verse Google.

Non contents de voir ces droits minorés, les médias employant des journalistes humains sont même floués une troisième fois. En effet, ces sites GenAI n’existeraient pas si les grands modèles de langage (LLM) et IA génératives qu’ils utilisent n’avaient été entraînés sur du contenu produit par des humains, et notamment sur des articles écrits par des journalistes.

Or, et en l’état, aucun mécanisme de contrepartie financière n’a été mis en œuvre afin de compenser ce pillage des médias, ni de la part des éditeurs d’IA, ni de la part des prestataires de générateurs d’articles conçus pour masquer qu’ils relèvent du plagiat (nous y reviendrons), ni de la part de ces éditeurs de sites GenAI. Ce pourquoi le ministère de la Culture envisage la possibilité d’une « inversion de la charge de la preuve » ou d’une « présomption d’utilisation des contenus culturels par les fournisseurs d’IA ».

À titre d’illustration, les 5 sites de l’éditeur figurant en tête du Top 10 de Médiamétrie totaliseraient 7,25 millions de « visiteurs uniques ». Or, cet éditeur administre 27 autres sites. De même, les 5 sites de l’éditeur figurant en 3e position totalisent 4 millions de « visiteurs uniques ». Ce dernier en administre une quinzaine d’autres.

L’étude de Médiamétrie montre en outre que 10 sites GenAI dénombrent de 1 à 4 millions de « visiteurs uniques » pour ce seul mois d’octobre 2025, et donc encore plus de pages vues parasitant des médias faisant travailler des journalistes, quand ils ne plagient pas leurs articles.

En outre, ce premier échantillon de 251 sites n’émane que de 85 éditeurs différents. Y figurent majoritairement des professionnels du SEO, mais également quelques groupes de presse, dénombrant dans leurs fermes de sites respectives plus de 2 000 autres sites d’infos GenAI.

Il serait donc non seulement instructif de pouvoir mesurer le poids de ces 2 000 autres sites potentiellement susceptibles, eux aussi, d’être recommandés par Discover ou Google Actualités, mais également d’étendre l’étude à l’ensemble des 8 900 sites GenAI que nous avons identifiés, ainsi qu’à leurs éditeurs respectifs.

À titre de comparaison, notre base de données répertorie en effet plus de 200 éditeurs administrant au moins 5 sites GenAI, dont 130 plus de 10, 70 plus de 25 et 35 plus de 50. Tous reposent peu ou prou sur le pillage et recyclage de contenus préalablement produits et mis en ligne par des humains, voire sur le plagiat généré par IA d’articles de journalistes.

L’objectif de cette première mesure d’audience est aussi de créer un Baromètre des sites GenAI qui permettrait de creuser plus avant la problématique, et d’étendre le périmètre des sites analysés à tout ou partie de notre base de données.

Téléchargez notre extension web (gratuite) pour être alerté lorsque vous visitez un site d’info généré par IA


Nous avons développé une extension pour les navigateurs Chrome (et donc Brave, Vivaldi, Opera, Microsoft Edge, etc.) et Firefox (y compris en version mobile sur Android), qui tourne en tâche de fond et affiche un pop-up d’alerte lorsque ses utilisateurs consultent un des 8 900 sites d’information dont nous avons identifiés que leurs contenus sont « en tout ou partie » générés par des intelligences artificielles génératives.

extension GenAI

Afin de vous prémunir des autres risques de cyberarnaques, notre extension prend également en compte deux autres listes : celle de plus de 30 000 noms de domaine « suspects » de Red Flag Domain, ainsi que la liste noire des entités non autorisées à proposer des produits ou services financiers en France de l’Autorité des marchés financiers (AMF).

Télécharger notre extension sur Firefox
Télécharger notre extension sur Chrome

  •  

☕️ Gemini 3 a désormais sa variante Flash

Quand Google a lancé sa nouvelle famille de modèles Gemini 3, seule la variante Pro a été présentée. C’est le modèle « à tout faire » de la nouvelle génération de LLM chez Google, avec un mode rapide et un autre pour le raisonnement, selon les besoins. Mais comme souvent, beaucoup attendaient une ou plusieurs versions réduites, beaucoup moins chères et plus adaptées à certains usages.

Google complète donc son offre avec une version Flash, positionnée comme un modèle à faible latence, optimisé pour l’inférence en temps réel, tout en préservant ses capacités multimodales et un mode de raisonnement. Gemini 3 Flash accepte ainsi en entrée le texte, les photos, vidéos et tout ce qui touche à la vision, pour interroger par exemple un flux vidéo en temps réel.

Le prix est bien sûr moins élevé que le modèle Pro. Via l’API, la facture s’élève ainsi à 0,30 dollar par million de jetons en entrée et 2 dollars en sortie. Google met également sur le devant de la scène des performances élevées, avec notamment 90,4 % au test GPQA Diamond, 78 % à SWE-bench Verified ou encore 33,7 % sur Humanity Last Exam, battant du même coup plusieurs modèles plus larges.

Le nouveau LLM est disponible dans Google AI Studio, Google Antigravity, Gemini CLI, Android Studio et Vertex AI, depuis l’API.

  •  

☕️ Emmanuel Macron outré par un deepfake suggérant un coup d’État en France

Emmanuel Macron est mécontent : ce week-end, un de ses homologues africains lui a envoyé un message pour vérifier ce qu’il se passait en France. Le pays était-il en plein coup d’État ?

En cause : une vidéo générée par IA, dans laquelle une journaliste placée devant ce qui semble être l’Élysée annonce la (fausse) chute du président de la République, remplacé par un colonel.

« Douze millions de vues ! » racontait-il en début de semaine lors d’un échange avec les lecteurs de La Provence (depuis le 12 novembre, avec le public de La Dépêche du Midi, Emmanuel Macron multiplie les rencontres de citoyennes et citoyens pour échanger avec eux sur « la démocratie face aux réseaux sociaux »).

Le président indique avoir demandé à Meta, par l’intermédiaire de Pharos, de supprimer le contenu, et s’être entendu répondre que celle-ci ne contrevenait pas aux règles d’utilisation de la plateforme.

Et d’ironiser : « J’ai tendance à penser que j’ai plus de moyens de pression que qui que ce soit. » Le président a regretté de se découvrir désarmé. « Ces gens-là se moquent de nous », a-t-il lancé, en référence aux propriétaires de réseaux sociaux.

En exposant cette affaire, il a par ailleurs démultiplié la visibilité du deepfake, passé de 12 à 20 millions de vues en 24 heures à peine.

Auprès du Figaro, Meta indique avoir affiché des étiquettes pour aider les utilisateurs à repérer les contenus créés par IA.

Libération a de son côté remonté la trace de son créateur pour tomber sur un jeune Burkinabé, Rachid B., originaire de Ouagadougou. Ce dernier indique avoir supprimé la vidéo le 17 décembre (alors qu’elle avait atteint les 23 millions de vues) « pour ne pas avoir de problèmes juridiques ou des trucs comme ça ».

Dans d’autres contextes, le président de la République est lui-même usager des technologies de génération d’images relativement réalistes : il s’en était notamment servi pour faire la promotion du Sommet sur l’intelligence artificielle, en février 2025, et « lancer le débat », selon ses propres termes.

  •  

[Offert] Notes de la communauté : un rempart efficace mais très imparfait contre la désinformation

leS NoTEs sAy La lIBErTé
[Offert] Notes de la communauté : un rempart efficace mais très imparfait contre la désinformation

L’éditeur de Facebook et Instagram a démarré hier une phase de test pour ses notes de la communauté. Largement calquées sur celles de X, elles permettent d’épingler nombre de contenus erronés, voire mensongers. De quoi résoudre tous les problèmes ? Non, selon Bloomberg, qui a publié une vaste étude sur le sujet.

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 21 mars 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


Les notes de la communauté sont un mécanisme simple : à la lecture d’une publication, on peut décider d’ajouter un contexte, en général un commentaire suivi d’un ou plusieurs liens. Le système avait été initié sur Twitter, avec son rachat par Elon Musk et sa transformation en X, en complément des entreprises et médias effectuant une vérification professionnelle.

Depuis quelques mois, les projecteurs sont braqués sur ces notes. Elon Musk s’est débarrassé de tous les vérificateurs professionnels, louant les mérites d’un système alimenté par les internautes. Dans l’esprit du milliardaire, le réseau social s’équilibre de lui-même. Une idée séduisante, d’autant plus que le mécanisme a l’immense avantage d’être parfaitement gratuit pour celui qui, après avoir dépensé des dizaines de milliards de dollars pour racheter Twitter, lie actuellement ses entreprises à la Maison-Blanche.

Les notes de la communauté ont plusieurs mérites

Bloomberg Opinion s’est lancé dans un vaste travail : analyser 1,1 million de notes de la communauté, publiées entre début 2023 et février 2025. Une montagne de données, qui permet d’en tirer nombre de conclusion ou, en tout cas, de faisceaux et corrélations. Les éléments mis en lumière pointent leur dualité, entre un système fréquemment encensé par Elon Musk et ses attaques contre les médias classiques.

Premier constat, sans doute l’un des plus importants : les notes de la communauté ne sont pas une arnaque. Qu’il s’agisse de constats par Bloomberg ou d’autres études pointées par nos confrères, le système fonctionne. Les messages épinglés par la communauté reçoivent ainsi moins d’engagement du reste des internautes, en likes comme en retweets. Ils sont également plus susceptibles d’être supprimés. De manière générale, le processus est considéré comme plus fiable et transparent que la vérification par des professionnels. Bloomberg relève également une limitation de la viralité de certains canulars pendant les grands incendies de Los Angeles.

Le fonctionnement de ces notes est assez simple. Si vous voyez passer un message qui vous parait faux, vous pouvez passer par le menu « … » pour demander à en ajouter une. Il faut fournir un message explicatif ainsi qu’un ou plusieurs liens pour appuyer le propos. Elle n’est pas automatiquement publiée : elle doit rassembler suffisamment de voix. Les autres personnes contribuant aux notes sont en effet invitées à voter. Quand un nombre suffisant de personnes donnent leur aval, la note apparait chez tout le monde.

Ce système, souligne Bloomberg, fonctionne généralement bien, et même mieux qu’avant. En janvier 2023, le temps médian nécessaire pour ajouter une note et la faire valider était d’environ 30 heures. Le mois dernier, ce temps était de 14 heures. On comprend donc pourquoi le système intéresse doublement Meta : non seulement il ne coute rien (en dehors de la mise en place du système et de sa maintenance), mais il est plus rapide que le travail des vérificateurs professionnels, qui peuvent prendre jusqu’à une semaine pour répondre.

Un outil parmi d’autres

Si les notes de la communauté donnent de bons résultats, elles ne représentent pas pour autant l’alpha et l’oméga de la modération et de la vérification des faits. Avoir divisé par deux le temps d’apparition d’une note montre un plus fort engagement des internautes et un processus mieux intégré dans les habitudes, mais l’efficacité du mécanisme est soumise au consensus. Qui prend du temps.

C’est la première limite du système selon Bloomberg : les 14 heures ont beau représenter une forte amélioration, les notes arrivent le plus souvent bien après la bataille de la viralité, le mal étant déjà fait.

Surtout, les données analysées par Bloomberg montreraient qu’après un pic, le système pourrait perdre en efficacité. Cette dernière dépend étroitement du consensus. Or, sur les sujets les plus clivants, il a du mal à être atteint. Selon les informations recueillies, moins de 10 % des notes de la communauté seraient réellement publiées, faute d’un accord. Parmi celles publiées, 26 % sont même supprimées, suite à un désaccord. Ce n’est qu’une moyenne, car plus le sujet divise, plus le score augmente. Sur un échantillon de 2 674 notes portant sur la Russie et l’Ukraine l’année dernière, plus de 40 % des notes ont ainsi été supprimées.

De plus, ce système de quorum peut être manipulé. « Il n’est pas rare de voir des instances de voix pro-russes rassemblant leurs partisans pour qu’ils votent collectivement contre une note proposée ou publiée », indique ainsi Bloomberg.

Même chose pour Elon Musk : sur les 167 notes accolées à ses tweets, seules 88 étaient encore en ligne au moment de la publication de l’article. Pour nos confrères, le milliardaire n’a besoin de rien faire : « ses partisans s’en chargent souvent à sa place ». En outre, il y a un mois, le patron de X s’est tout à coup mis en colère. Affirmant que Volodymyr Zelensky était malaimé de ses concitoyens ukrainiens, une note est venue le contredire. Plus récemment, The Economist a mis à jour ces chiffres, montrant une forte cote de popularité.

Sources fiables : la grande ambivalence

Bloomberg pointe également l’ambivalence d’Elon Musk au sujet des médias traditionnels, qu’il accuse régulièrement d’avoir leur propre agenda politique et de répandre le « virus woke ». À cet ancien monde, il oppose justement les notes de la communauté, système qu’il présente comme l’aboutissement d’une démocratie libre, où chacun peut donner son avis, le tout s’équilibrant de lui-même.

Pour autant, ce système de notes repose sur la fiabilité des sources pour fonctionner. De quoi parle-t-on ? Des médias traditionnels, qui représentent « la principale source d’information ». Plus précisément, 31 % des liens cités, suivis par 20 % de liens vers des réseaux sociaux (qui peuvent renvoyer eux-mêmes vers des médias) et 11 % vers des sites éducatifs. Parmi les sources les plus fréquemment citées, on trouve Reuters (« l’organisation d’information la plus trompeuse au monde », selon Elon Musk), la BBC (« British Pravda ») et NPR (« gérée par la Stasi wok»).

Même problème avec Wikipédia, source la plus souvent citée dans les notes de la communauté. Elon Musk ne cache pas sa détestation profonde de l’encyclopédie collaborative. Il a appelé par exemple en décembre dernier à couper les dons à la fondation Wikimedia.

Sur ce point, Bloomberg note « une curieuse bizarrerie de la nature humaine » : « Les utilisateurs semblent croire plus facilement un inconnu sur internet qui renvoie à un article du New York Times, par exemple, qu’ils ne croient le New York Times lui-même lorsqu’il propose directement une vérification des faits ». Pour nos confrères, c’est l’équivalent « d’un ami qui sort Wikipédia pour trancher un débat dans un bar ».

Avec Meta, les notes vont changer d’échelle

Bloomberg a fait coïncider les résultats de son enquête avec le début des tests pour les notes de communauté sur les services de Meta. Comme nous l’indiquions la semaine dernière, Meta s’est lancée le 18 mars dans une phase d’essai aux États-Unis. Et tout portait à croire que le système allait rapidement trouver son public, avec plus de 200 000 inscriptions.

Dans un billet, la société disait s’attendre « à ce que les notes de communauté soient moins biaisées que le programme tiers de vérification des faits qu’elles remplacent, car elles permettent à davantage de personnes ayant plus de perspectives d’ajouter du contexte aux publications ». Un axe de communication reprenant le discours de Mark Zuckerberg en janvier, dans lequel il déclarait que « les fact-checkers sont devenus trop biaisés politiquement, et ils ont détruit plus de confiance qu’ils n’en ont créée, particulièrement aux États-Unis ».

Or, avec l’arrivée des notes chez Meta, le changement d’échelle est manifeste : d’environ 220 millions d’utilisateurs sur X à environ 3,3 milliards sur les plateformes Facebook, Instagram et Threads cumulées. L’efficacité des notes sur une si large population reste à démontrer, mais il est probable qu’elles aient un certain impact, comme sur X.

En revanche, pour Bloomberg, elles ne sauraient être la défense ultime contre la propagation des fake news ou simplement des erreurs. Dans une approche « prévenir plutôt que guérir », le média indique que le fonctionnement même de X aujourd’hui alimente en bonne partie le problème : la course à la viralité. Elon Musk a modifié la manière dont les détenteurs d’un compte Premium peuvent gagner de l’argent sur sa plateforme, en misant sur l’engagement, incitant à faire réagir autant que possible.

En même temps que Facebook a annoncé cette grande bascule, plusieurs autres changements importants ont été présentés. Par exemple, les notes de la communauté n’auront aucun impact sur la visibilité des publications, contrairement au système actuel. En outre, l’incitation financière pour les créateurs de contenus sera plus importante, là encore un encouragement à la viralité.

En somme, les notes de la communauté fonctionnent dans une certaine mesure, mais perdent nettement en efficacité dès que les sujets deviennent plus clivants. Mais selon nos confrères, la conclusion la plus évidente est que si les plateformes de réseaux sociaux voulaient vraiment lutter contre la désinformation, elles commenceraient par ne plus inciter à la viralité.

  •  

Piratage du ministère de l’Intérieur : un suspect interpelé

Des données oui, mais...
Piratage du ministère de l’Intérieur : un suspect interpelé

Le parquet de Paris a annoncé qu’un suspect avait été arrêté dans le cadre du piratage du ministère de l’Intérieur. Parallèlement, les pirates ont diffusé des informations en lien avec la Caisse d’allocations familiales, mais il n’y a rien de neuf sur les fichiers TAJ et FPR.

« Une personne a été interpelée le 17 décembre dans le cadre de l’enquête ouverte par la section de lutte contre la cybercriminalité du parquet de Paris, des chefs notamment d’atteinte à un système de traitement automatisé de données à caractère personnel mis en œuvre par l’État en bande organisée, à la suite de la cyberattaque au préjudice du ministère de l’Intérieur », a indiqué le parquet dans un communiqué, retransmis sur X et signé Laure Beccuau, procureur de la République.

Le communiqué donne d’autres informations, notamment que le suspect est né en 2003 et qu’il était déjà « connu des services de justice pour avoir été condamné pour des faits similaires en 2025 ». Le parquet rappelle que ce délit fait encourir une peine de 10 ans d’emprisonnement. On apprend également que les « investigations diligentées par l’OFAC [Office anti-cybercriminalité, ndlr] se poursuivent » et qu’une « nouvelle communication interviendra à l’issue de la garde à vue, qui peut durer jusqu’à 48 heures ».

Fuite d’informations provenant de la CAF

Indra, qui se présente comme un des pirates derrière l’attaque du ministère de l’Intérieur, a publié de nouveau un message BreachForums hier soir, à nouveau ressuscité l’espace d’un instant. « Bonjour la communauté BreachForums, Je vous annonce aujourd’hui un cadeau de Noël pour la France. Dites merci à « SaxX », c’est vraiment un bon menteur : la compromission d’une base de données de la CAF », a écrit Indra, en référence à celui qui se décrit comme « Gentil hacker », pour avoir minimisé l’ampleur de la fuite dans un tweet hier soir. Il y évoquait un « gros bluff » et traitait le groupe de pirates de « bande de clowns ».

« Voilà l’envers du décor ! Des jeunes cybercriminels français avec une émulation néfaste qui jouent à qui aura la plus grosse et défoncent néanmoins nos systèmes d’information en France. On est bien loin de l’ingérence étrangère comme j’ai pu l’évoquer depuis quelques jours », clamait ainsi SaxX hier soir vers 21 h.

La fuite d’informations de la CAF a bien été identifiée comme telle par plusieurs personnes, dont Christophe Boutry (anciennement de la DGSI). Il indique dans un tweet que la base n’est pas « classique », dans le sens où il « agrège des bénéficiaires CAF, MSA (agricole) et CNOUS (étudiants) ». Selon lui, le seul dispositif croisant ces trois bases est le Pass’Sport. En outre, il pointe un chiffre « trompeur », car les 22 millions annoncés se réduisent à 3,5 millions de foyers uniques « après dédoublonnage intégral ».

La situation serait particulièrement sensible pour les jeunes adultes : « Le fichier permet de suivre l’évolution précise du bénéficiaire. De simple ayant-droit associé au mail de ses parents, il devient une cible directe à sa majorité, avec l’apparition de ses propres coordonnées (téléphone, email personnel) et de sa situation sociale », indique Christophe Boutry. La fuite reste grave dans tous les cas, d’autant que les informations y sont fraiches, les dernières datant de novembre. « Encore une faille majeure dans la chaîne de sous-traitance de l’État », ajoute Christophe Boutry.

Le ou les pirates ont annoncé il y a quelques heures détenir également 2,1 millions de dossiers patients provenant de l’AP-HP (Assistance Publique – Hôpitaux de Paris).

  •