↩ Accueil

Vue lecture

Google ajoute un bouton "+" : voici comment évoluent les recherches de fichiers et d’images

Si vous avez remarqué un petit symbole « + » dans la barre de recherche en ouvrant Google aujourd'hui, vous n'êtes pas seul. Google a ajouté une fonctionnalité qui pourrait bien rendre la recherche par mots-clés obsolète . Cette nouveauté peut paraître minime, mais elle influence la manière dont le moteur de recherche traite les requêtes des utilisateurs et intègre le traitement en mode IA . L' interface historique de google.com , plus instable que jamais , introduit une modification visant à rendre plus visible la possibilité de télécharger des images et des documents – des fonctionnalités déjà présentes, mais moins évidentes. Et tout cela profite moins aux utilisateurs qu'à l'IA . Le bouton « + » remplace l’icône de loupe à gauche de la barre de recherche et ouvre un menu permettant d’importer des images ou des fichiers pour analyse. L’objectif affiché de Google est de faciliter les requêtes complexes, qui ne se limitent pas à la saisie de mots-clés mais impliquent du contenu visuel et des documents. Malheureusement, ce faisant, nous serons inconsciemment introduits dans l'interface du mode IA. En téléchargeant un fichier PDF , comme un manuel, vous pouvez demander des informations sur les éléments qui y sont mentionnés. Avec une photographie , en revanche, l'analyse se concentre sur les objets et les détails présents sur l'image. La recherche Google est donc (une fois de plus) mise de côté au profit d'une interaction immédiate avec Gemini , où l'intelligence artificielle répond à des problèmes concrets à partir des documents fournis. Le nouveau bouton est uniquement actif sur la version web pour ordinateur , et non sur les appareils mobiles. Il est également disponible en navigation privée , sans avoir besoin de se connecter à un compte Google. Pour l'utiliser, il suffit de : - Cliquez sur le bouton + de la page principale. - Sélectionnez « Télécharger une image » ou « Télécharger un fichier » . - Sélectionnez le contenu que vous souhaitez envoyer depuis votre appareil. - Saisissez un message dans le champ « Poser une question à propos de cette image » ou « Poser une question » . - La possibilité d'approfondir le sujet avec de nouvelles questions maintient l'interaction avec l'IA active et permet même des clarifications très spécifiques. Une victoire pour l'utilisateur, mais aussi pour Google, qui, une fois de plus, intègre ses services aux habitudes de consommation. Car, si vous ne l'aviez pas encore compris, l'intelligence artificielle est le présent et l'avenir de Google . Sans exception. (Lire la suite)
  •  

Gemini peut attendre, vous pouvez encore profiter d'Assistant pendant un certain temps.

La décision de Google de reporter la fin d' Assistant sur les appareils mobiles modifie le rythme d'une transition entamée il y a plusieurs mois. L'entreprise avait initialement annoncé fin 2025 comme échéance finale, mais son calendrier s'étend désormais au-delà. Ce retard met en lumière une transition qui concerne les smartphones, les montres connectées et les casques audio, autant d'appareils encore liés à l'utilisation quotidienne de l'Assistant . Le chemin vers Gemini a véritablement commencé en mars dernier, lorsque Google a annoncé son intention de remplacer définitivement Assistant sur la quasi-totalité des téléphones Android d'ici fin 2025. L'objectif incluait la disparition de l'option permettant de choisir lequel des deux systèmes utiliser. À l'approche de la fin de l'année, Google met à jour son calendrier et confirme une certaine flexibilité. L'entreprise indique vouloir privilégier une transition en douceur et poursuivre le processus jusqu'en 2026 . Ce choix témoigne de la volonté d'éviter toute accélération forcée à un stade où l'expérience acquise avec Gemini pourrait nécessiter des améliorations supplémentaires. L'entreprise ne fixe pas de nouvelle date limite, laissant ainsi la marge de manœuvre pour achever la migration. Ce report concerne exclusivement les appareils mobiles, notamment les téléphones, les montres et les casques audio. La transition vers Google Home se déroule indépendamment et n'est pas abordée dans cet article. Les scénarios pour les appareils plus anciens ou ceux disposant de ressources matérielles limitées, qui peuvent ne pas prendre en charge Gemini , restent flous, mais l'allongement du délai laisse penser que les réponses n'arriveront que plus tard. L’accélération du rythme de la transition, malgré les incertitudes qui subsistent, souligne combien les services numériques nécessitent des délais techniques qui ne sont pas toujours compatibles avec les annonces, notamment lorsqu’il s’agit de fonctions utilisées quotidiennement et ancrées dans les habitudes de millions de personnes. (Lire la suite)
  •  

Instagram dit non aux hashtags : qu’est-ce qui change pour ceux qui en utilisent trop ?

La décision d' Instagram d'introduire une limite au nombre de hashtags modifie l'une des habitudes les plus courantes chez ceux qui publient du contenu sur la plateforme, afin de freiner la prolifération de listes de plus en plus longues et répétitives. Cette décision fait suite à un discours du directeur de la plateforme , Adam Mosseri , qui a exposé sa nouvelle approche concernant une fonctionnalité souvent surutilisée. Mosseri a expliqué que chaque publication ne peut contenir que cinq hashtags au maximum , une limite conçue pour réduire l'accumulation de hashtags génériques. La plateforme considère cela comme un moyen de privilégier un contenu plus cohérent et ciblé. Le responsable a souligné que les hashtags continuent de faciliter la recherche interne , mais qu'ils n'ont aucun impact sur la portée des publications. Les créateurs sont encouragés à identifier les contenus qui suscitent réellement l'intérêt de leur public et à ne pas se fier à de longues listes inutiles. Une logique similaire a également guidé le développement des limitations sur Threads , où chaque message ne peut inclure qu'une seule étiquette. Commentant ce choix, Mosseri avait souligné l'objectif de freiner les pratiques de piratage de l'engagement et d'orienter l'utilisation des tags vers les communautés et non vers des mécanismes artificiels. En résumé, la nouvelle limite imposée par Instagram clarifie la stratégie de l'entreprise pour limiter les abus de ses outils de classification et instaurer une utilisation plus rigoureuse des étiquettes textuelles. L'avenir nous dira ce que cette restriction impliquera concrètement. (Lire la suite)
  •  

Les prix des ordinateurs pourraient augmenter considérablement en 2026

En 2026, le prix des ordinateurs pourrait être nettement supérieur aux prévisions. Selon les dernières estimations du cabinet d'analystes IDC, l'ensemble du secteur informatique entre dans une période de fortes hausses de prix, touchant aussi bien les ordinateurs pré-assemblés que leurs composants. Cette situation est due à plusieurs facteurs qui convergent et créent un contexte de marché difficile. L'un des principaux problèmes, bien sûr, est le prix de la RAM, qui a considérablement augmenté ces dernières semaines, et les fabricants annoncent que ce n'est pas fini. Non seulement la RAM devient plus chère, mais d'autres composants qui en dépendent directement voient également leur prix grimper. Par conséquent, les fabricants de cartes graphiques, notamment AMD et NVIDIA, envisagent eux aussi d'augmenter les prix de leurs produits, invoquant la hausse du coût de la mémoire DRAM. Tout cela signifie que monter son propre PC pourrait devenir nettement moins rentable qu'auparavant. Pour les joueurs et les passionnés d'informatique, cela implique un choix plus difficile entre mettre à niveau son matériel et reporter un achat. IDC constate que les principaux fabricants d'ordinateurs signalent déjà une crise qui s'aggrave. Des entreprises comme Lenovo, Dell, HP, Acer et ASUS informent leurs partenaires et clients de hausses de prix prévues, qui devraient dans de nombreux cas atteindre 15 à 20 %. Il ne s'agit pas seulement d'ajustements ponctuels, mais aussi de modifications des contrats à long terme, ce qui laisse présager une hausse des prix durable. Dans ce contexte, IDC prévoit une baisse des livraisons de PC. Selon les estimations actuelles, les livraisons mondiales de PC pourraient diminuer d'environ 4,9 % en 2026. Cependant, les analystes soulignent que si les problèmes de disponibilité de la mémoire s'aggravent, cette baisse pourrait être encore plus importante. Un autre développement intéressant pourrait être le rééquilibrage des forces sur le marché. IDC prévoit que les grands équipementiers tireront profit de cette situation au détriment des petites entreprises. La raison est simple : les grandes marques sont en mesure de négocier de meilleurs prix pour les composants et de proposer des kits pré-assemblés, que certains clients jugeront plus avantageux que de monter leur propre PC. Concrètement, cela pourrait signifier qu'en 2026, davantage de personnes opteront pour un ordinateur pré-assemblé, même si elles préféraient auparavant le monter elles-mêmes. La hausse des prix de la mémoire vive, des cartes graphiques et autres composants pourrait rendre les systèmes complets des grands fabricants plus attractifs, du moins en termes de prix final. Dans le même temps, les fabricants pourraient limiter les configurations matérielles. On prévoit déjà que 8 Go de RAM redeviendront la norme sur le segment des ordinateurs portables, même pour les modèles de milieu de gamme. Des configurations supérieures seront disponibles, mais leur prix risque de dissuader de nombreux clients. La situation est également influencée par le ralentissement de l'intérêt pour les ordinateurs dotés d'intelligence artificielle. Les fonctionnalités de traitement de l'IA embarquées, promues par des entreprises comme Microsoft via Copilot+, nécessitent davantage de mémoire vive. Face à la pénurie et aux prix élevés, les fabricants pourraient être contraints de limiter ces solutions ou de les réserver aux modèles plus onéreux. IDC note que l'engouement pour les PC IA pourrait s'estomper en 2026, précisément en raison des problèmes de disponibilité de la mémoire et des pressions sur les coûts qui affectent l'ensemble du secteur. D'après les prévisions, 2026 s'annonce comme la pire crise depuis des décennies. Malheureusement, la situation va s'aggraver dans les prochains mois, et il est actuellement difficile de prévoir quand elle commencera à se normaliser, et encore moins quand les prix reviendront à leur niveau d'avant la hausse. (Lire la suite)
  •  

Tesla met le Cybercab en circulation. Un pas de géant vers la conduite autonome.

Tesla a mis en circulation son véhicule autonome, le Cybercab, dans les rues de la ville. La voiture, qui ne peut accueillir que deux personnes, a été aperçue dans le centre-ville d'Austin, au Texas, où la société d'Elon Musk développe son service de voitures autonomes, Robotaxi. Le choix d'Austin n'est pas fortuit. C'est là que Tesla a lancé une version pilote de sa plateforme Robotaxi. Dans un premier temps, le nouveau Model Y équipé du logiciel FSD 14 en version non supervisée a été utilisé pour le transport. Cela a permis à l'entreprise d'obtenir les autorisations nécessaires, de tester l'application de covoiturage et de recueillir des données de conduite en conditions réelles, tout en utilisant un modèle de voiture familier. Le Cybercab était initialement présenté comme le véhicule cible de ce service, mais l'absence de contrôles complexifie considérablement les questions réglementaires. Néanmoins, Tesla a décidé que le moment était venu de procéder à son premier essai hors site. Elon Musk a annoncé qu'en 2026, la plateforme Robotaxi s'étendra aux véhicules appartenant aux clients, notamment le Cybercab. Il s'agira probablement des nouveaux modèles Y, équipés du matériel nécessaire à la conduite autonome. Les véhicules plus anciens dotés d'ordinateurs HW3 ne répondent pas à ces exigences et ne pourront pas être intégrés à la flotte. Seules des versions limitées du système FSD sont prévues pour ces derniers. Le Cybercab ne présente pas ce problème car il a été conçu dès le départ avec le matériel AI4 de dernière génération. Tesla le teste depuis des mois dans des zones fermées et vérifie le fonctionnement de ses systèmes autonomes, notamment avec des Model 3 modifiées simulant le comportement du futur véhicule. On ignore si une personne se trouvait à bord du Cybercab lors de son trajet dans Austin. S'agissant de son premier déplacement en circulation, il est probable qu'un ingénieur de Tesla était présent. Cependant, il est difficile de le qualifier de « conducteur », puisque le véhicule est dépourvu de volant et de pédales. Cela soulève des questions quant à son comportement en cas d'urgence et aux mesures que Tesla compte prendre en matière de sécurité. Auparavant, le Cybercab était piloté par une télécommande, mais celle-ci ne servait qu'à le déplacer dans les halls d'exposition. En circulation normale et dans le cadre du service Robotaxi, ce type de pilotage n'est plus possible. Le premier essai du Cybercab sur la voie publique témoigne de la volonté de Tesla d'accélérer ses travaux sur les transports entièrement autonomes. L'entreprise doit encore relever des défis juridiques et techniques, mais ces tests en conditions réelles indiquent que le projet entre dans une nouvelle phase. Les prochains mois permettront de déterminer comment le Cybercab se comporte au quotidien et s'il rapproche réellement Tesla du lancement à grande échelle de ses robotaxis sans conducteur. (Lire la suite)
  •  

Paramount ne lâche pas : Larry Ellison met 40 milliards sur la table pour racheter Warner Bros

Nouveau rebondissement dans le dossier du rachat de Warner Bros. : pour prouver que son offre de rachat hostile est sérieuse, le milliardaire Larry Ellison annonce être prêt à garantir personnellement 40 milliards de dollars sur ses fonds propres. Une manœuvre financière qui vise à convaincre les actionnaires de Warner Bros. Discovery d'accepter l'offre de Paramount.

  •  

Avatar 3: De Feu et de Cendres : un box office qui s’érode au lancement, mais dépasse tout de même les 300 millions de dollars

Cette fois, les 2 milliards de dollars aux box-office ne sont pas gagnés d’avance : le retour sur Pandora a en effet provoqué un nouveau raz-de-marée… mais peut-être pas dans les proportions escomptées. Pour son premier week-end d’exploitation, Avatar : De feu et de cendres affiche un démarrage …

Lire la suite

Aimez KultureGeek sur Facebook, et suivez-nous sur Twitter

N'oubliez pas de télécharger notre Application gratuite iAddict pour iPhone et iPad (lien App Store)


L’article Avatar 3: De Feu et de Cendres : un box office qui s’érode au lancement, mais dépasse tout de même les 300 millions de dollars est apparu en premier sur KultureGeek.

  •  

League of Legends prépare sa plus grande métamorphose pour 2027

League of Legends

Riot Games officialise une refonte majeure de League of Legends pour 2027. Exit l'idée d'une suite, le studio prépare une mise à jour d'envergure incluant un nouveau client, une refonte visuelle de la Faille de l'Invocateur et des ajustements de gameplay. Une modernisation, dont le plan a été accéléré par une fuite, qui vise à redéfinir l'expérience de jeu pour la prochaine décennie.

  •  

Interdiction des réseaux sociaux aux moins de 15 ans : le projet de loi est prêt pour début 2026

La ministre déléguée au Numérique, Anne Le Hénanff, confirme que le texte législatif visant à bannir les réseaux sociaux pour les moins de 15 ans et les téléphones portables au lycée en France est finalisé. Ce projet, soutenu par Emmanuel Macron, doit être soumis au Parlement dès le …

Lire la suite

Aimez KultureGeek sur Facebook, et suivez-nous sur Twitter

N'oubliez pas de télécharger notre Application gratuite iAddict pour iPhone et iPad (lien App Store)


L’article Interdiction des réseaux sociaux aux moins de 15 ans : le projet de loi est prêt pour début 2026 est apparu en premier sur KultureGeek.

  •  

[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Y aura-t-il des ads ibou ?
[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Est-il possible de créer aujourd’hui un moteur de recherche sans faire partie des plus grosses entreprises du secteur ? Pour explorer ce thème, nous nous sommes entretenus avec Sylvain Peyronnet, PDG de Babbar.

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 24 septembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


Depuis quelques semaines, Next a repéré sur les réseaux sociaux un nouveau projet français de moteur de recherche (conversationnel, cette fois) porté par l’entreprise Babbar : Ibou. Connaissant un autre projet de moteur de recherche dont les résultats se sont trouvés datés et limités, nous étions curieux de savoir s’il était possible d’en monter un avec un index correct, à jour et qui pourrait profiter des nouvelles technologies comme les LLM pour améliorer son fonctionnement.

Nous avons interrogé Sylvain Peyronnet, PDG de Babbar. Son entreprise est spécialisée dans les outils permettant aux spécialistes du SEO d’améliorer leurs stratégies. Lui est un ancien enseignant-chercheur en intelligence artificielle, mais aussi l’ancien responsable scientifique de Qwant, parti en 2019.

>> Qu’est-ce qu’il y a derrière ce nom d’Ibou à l’apparence très française ?

C’est un projet de moteur de recherche de l’entreprise Babbar. Celle-ci fait, depuis que j’ai quitté Qwant et qu’on l’a montée, des outils qui font tourner en arrière-plan un moteur recherche, pour comprendre ce que fait Google et fournir de la data aux gens qui font du référencement web. Pour différentes raisons, nous avons décidé de pivoter. Nous avons commencé à créer un moteur de recherche conversationnel depuis quelques mois. Et nous l’avons annoncé quasiment dès qu’on a commencé le travail.

Ibou, même si on joue beaucoup avec des logos liés à l’oiseau parce qu’on est en France, ça n’a rien à voir : c’est un mot d’égyptien ancien qui veut dire « les cœurs », car, dans l’Égypte ancienne, le cœur était le siège du raisonnement et de la mémoire.

>> Qu’est-ce qui vous a amenés à imaginer ce projet ?

En travaillant dans le secteur du moteur de recherche depuis longtemps, nous nous sommes rendu compte de plusieurs choses.

Déjà, jusqu’au paradigme conversationnel, les moteurs n’étaient pas vraiment faits pour de la recherche d’information, mais pour de la recherche documentaire : ils renvoyaient des pages web. Pourtant, quand les gens tapent une requête dans un moteur, la plupart du temps, ils s’en fichent un peu. Ce qu’ils attendent, c’est une réponse qui les satisfait et qui leur permet de réaliser les tâches qu’ils veulent réaliser.

« L’émergence des LLM a permis de faire percoler des informations humaines dans des objets mathématiques »

Ensuite, pour faire un bon moteur, le nerf de la guerre était d’avoir beaucoup de données utilisateurs pour comprendre l’être humain et affiner ce que faisaient les algorithmes et qui n’était jamais parfait. Et pour parfaire les résultats d’un moteur, il fallait beaucoup de comportements humains.

L’émergence des LLM, et surtout des LLM alignés, a permis de faire percoler des informations humaines dans des objets mathématiques, les modèles. Maintenant, une partie des choses qui pouvaient être faites grâce à la data humaine peut être faite grâce aux modèles qui existent. Bien sûr, ceux-ci ont été fabriqués avec de la data humaine. Mais, comme c’est à l’intérieur du modèle et que c’est pas très cher de faire tourner des modèles, une partie de la difficulté, et notamment de la barrière à l’entrée, de la création d’un moteur a disparu, parce que le modèle a incorporé cette connaissance des humains.

C’est pour ça qu’on a décidé de se lancer aujourd’hui. En réalité, n’importe quelle équipe de personnes qui sont un peu douées en algorithmique peut faire des moteurs de bonne manière.

>> L’idée est donc de faire un moteur de recherche conversationnel sur quels types de contenus ? Textuels, images, audio ?

Notre moteur a vocation, à terme, à mettre en avant l’information. Et donc la multimodalité fait partie du pack, puisqu’en réalité, l’information n’est pas que textuelle, qu’image, etc. Mais il faut être raisonnable : au début, on ne va avoir que textes et images. Pour la vidéo, ce n’est pas un problème algorithmique, mais nous n’avons juste pas les moyens. Ça arrivera plus tard si on arrive à montrer qu’on est capables d’avoir des résultats de bonne qualité sur textes et images.

Mais nous avons une vision un peu différente des autres de ce que doit être un moteur de recherche, et une vision plus ouverte du web que ce que proposent la plupart des plateformes actuelles. Notamment, nous voulons être un moteur qui répond à l’utilisateur, mais pas comme un LLM classique comme ChatGPT ou autres, avec un texte qui explicite absolument tout. Cela génère souvent une mauvaise qualité de réponse.

« On veut aussi garantir un pluralisme »

Indépendamment des hallucinations ou des mensonges, en réalité, les gens veulent souvent accéder à une source. La bonne réponse, de notre point de vue, est l’explication de pourquoi il faut aller lire une source. Nous voulons nous interposer à un niveau intermédiaire avec toutes les modalités qui permettent d’expliquer, les images, les cartes, etc.

On pense aussi qu’il ne faut pas prendre les gens pour des abrutis. Actuellement, les moteurs ont des biais terribles et ne présentent qu’une seule partie de l’information. On veut aussi garantir un pluralisme. L’actualité est traitée par chaque média depuis son point de vue, et c’est compréhensible, chaque média a sa ligne éditoriale particulière. Mais un moteur de recherche peut tout à fait mettre en avant la diversité de point de vue.

>> Ça fait penser aux vieilles approches de portail d’informations comme Yahoo ou autre. Vous en êtes-vous inspirés ?

Peut-être de façon involontaire : ça correspond à l’image du web qu’on a dans l’équipe, qui est plus composée de vieux barbus que de startupers. Mais la technologie permet de faire des choses beaucoup plus subtiles que ce qu’on faisait avant. Nous allons avoir une verticale qui va se rapprocher fortement d’un portail : Ibou Explorer, un équivalent de Google Discover, mais de qualité. Ici, toutes les sources seront directement présentées dans leur diversité, avec une personnalisation. On sera là plus proche d’une idée de portail, comme ceux de Yahoo, etc. J’espère qu’on va réussir à faire un meilleur travail.

Par contre, sur la partie moteur, il y a une partie de curation. Il va falloir trouver le bon équilibre et savoir où la curation s’arrête : on ne veut pas prendre le pas sur la réflexion de l’humain.

>> Concernant la curation, il y a aussi celle des contenus diffusant des informations volontairement fausses et des contenus générés par IA. Ibou va-t-il prendre en compte ces problématiques ?

Ce sont deux sujets sur lesquels nous travaillons. Le premier, la véracité de l’information, est le plus simple. Nous expliquons dans notre manifeste que nous voulons donner des informations de qualité. La qualité, pour nous, étant la correction de l’information et son utilité. Pour l’utilité, c’est assez clair : à tel type de personne, est-ce que l’information va lui servir pour réaliser sa tâche ?

La correction est de savoir si une chose est vraie ou fausse, sachant qu’il y a toute une gradation et qu’à un moment donné, une chose peut n’être ni vraie ni fausse (une opinion, par exemple). Il y a une vraie difficulté technique à faire ça. Nous avons prévu un processus pour qu’une chose abusivement fausse ne puisse pas passer, avec quelques erreurs de temps en temps. Mais sur l’actualité, il est parfois difficile de repérer le mensonge. La grosse partie de ce qui est de la propagande, qui est de la manipulation, se repère plus sur la qualité intrinsèque des contenus que par rapport à l’information elle-même et sa véracité.

Par rapport aux contenus IA, dans notre prototype Ibou Explorer, ce qui compte, ce n’est pas que le contenu soit généré par IA ou pas, mais s’il a un niveau tel qu’il aurait pu être écrit par un être humain. Nous allons donc plutôt qualifier si un contenu qui s’annonce journalistique s’appuie réellement sur les sources qu’un journaliste aurait utilisées, par exemple. On essaye de vérifier quel est le type de personne qui a écrit (en s’appuyant sur le niveau de langage, le type d’écriture, si la personne a écrit des articles dans des médias de confiance, etc). C’est des choses qu’on arrive à faire et qu’on peut utiliser.

Pour Ibou Explorer, c’est d’autant plus facile à faire qu’on est sur un nombre de sites qui est beaucoup plus petit. Il est donc beaucoup plus facile de comprendre quelles sont les sources de qualité et les autres. Sur le search à très grande échelle, il faut que nous industrialisons ce processus, ce qui coûte très très cher. Nous essayons en ce moment d’en réduire les coûts.

>> Mais il est difficile, pour le public, de comprendre quels paramètres permettront de discriminer…

C’est la vraie problématique. Nous voulons être transparents algorithmiquement. Nous allons donc communiquer certaines choses. Nous faisons des analyses sur le vocabulaire utilisé, on le compare au vocabulaire utilisé sur d’autres sites web, etc. Par exemple, pour le Monde, nous listons les contenus qu’il publie et statistiquement leurs caractéristiques. Ça crée ensuite des empreintes pour des classifieurs qui permettent de facilement repérer si des contenus sont susceptibles d’être les mêmes, s’en approchent, etc. C’est par des artifices statistiques que nous allons faire les choses, c’est le seul moyen d’automatiser.

Bien sûr, nous savons qu’il y a toujours moyen, en travaillant vraiment à publier des choses qui ressemblent à de bons articles. L’avantage, c’est que les gens qui font de la fake news publient en masse et ne travaillent pas bien un article unitairement, et il est donc possible de les repérer.

Les jugements humains d’invalidation, notamment pour la partie Ibou Explorer, ne viendront qu’a posteriori.

Mais il y a des mécanismes algorithmiques en plus sur lesquels nous ne pouvons pas être transparents, sinon les gens pourraient savoir comment passer outre. Par contre, nous allons mettre en place une interface, un peu comme la Google Search Console, où les gens pourront demander pourquoi telle ou telle page n’est pas dans Ibou. Et nous donnerons la qualification que nous en faisons (« il n’est pas de qualité pour telle ou telle raison », par exemple), sans pour autant expliquer comment nous l’avons fait.

Nous avons un système, par exemple, qui donne la probabilité qu’un contenu soit écrit par un humain, une IA ou un humain assisté d’une IA. Bien sûr, ça se trompe : il y a souvent des contenus écrits par des humains qui sont détectés comme générés par des IA parce que les humains ont mal écrit. On se trompe davantage dans ce sens, car il y a assez peu de gens qui font de bons contenus IA. Nous donnerons aussi un outil qui analysera le texte et qui donnera notre conclusion.

>> Ciblez-vous l’indexation du web francophone, anglophone ou carrément tout le web ?

Aujourd’hui, nous crawlons tout le web, même si nous avons priorisé le francophone et quelques langues des pays limitrophes à la France. Nous ferons ensuite toutes les langues qu’on peut faire : pour des raisons algorithmiques, certaines langues (indépendamment des marchés) sont difficiles, comme les langues asiatiques ou le finlandais. Le russe, nous ne l’indexons pas. Même dans Babbar, nous ne le crawlons plus, en ce moment : ça ne sert à rien puisqu’il n’y a plus de marché.

Nous n’avons pas vocation à nous limiter à notre marché domestique. Mais on va mettre une priorité sur les contenus européens, car notre public sera probablement européen, mais ça ne veut pas dire qu’on ne traitera pas les autres langues. On va simplement favoriser des contenus susceptibles d’être cherchés par nos utilisateurs.

>> Concernant la souveraineté, quelle est votre position ? Où seront installés vos serveurs ?

Je n’aime pas cet axe de la souveraineté qui est utilisé par beaucoup de mes camarades. Nous sommes plus souverains que quiconque. Nous avons des machines qui nous appartiennent en propre, physiquement. Nous les maintenons avec nos équipes en France et elles sont à Marcoussis dans le 91.

Nous n’utilisons pas de solution de cloud : nos modèles tourneront « on premise », ne serait-ce que pour des raisons économiques et écologiques. Ça n’a aucun sens d’utiliser du cloud, surtout aux États-Unis, pour faire ça. Nos données sont stockées en France. Enfin, pour garantir notre service, nous avons des machines que nous administrons chez deux opérateurs : OVH (en France et aux Pays-Bas) et Scaleway (en France). Nos capitaux sont tous français. Mais je dis plutôt « made in France » plutôt que « souverain ». Pour nous, ça coule de source, puisqu’on vit et on travaille ici.

>> Quelles ressources en temps et en argent sont nécessaires pour crawler le web maintenant et le sauvegarder ?

Beaucoup moins qu’avant. Moins pour nous que pour d’autres, mais ça demande quand même beaucoup de ressources. Crawler le web, ce n’est pas ce qui va demander le plus de ressources, mais c’est le stocker et l’indexer ensuite. Aujourd’hui, le crawler historique à l’origine de la technologie mise en place pour Babbar tourne sur six à huit serveurs et doit nous coûter pas plus de 15 000 euros par mois pour crawler quatre milliards de pages par jour.

Ce qui coûte très cher, c’est le stockage. Mais avec une infrastructure qui coûte à la louche un million d’euros, on a une infrastructure qui se situe dans les 15 premiers crawlers mondiaux et qui est largement capable de scrawler un index qui peut servir toute l’Europe. On a créé une énorme base de données.

Mais un moteur de recherche, c’est aussi des millions d’utilisateurs et les infrastructures de services coutent cher aussi. Il faut donc faire « scaler » le service, ce qui est uniquement proportionnel au nombre d’utilisateurs.

Tout ça, ce sont quelques millions d’euros maintenant, là où c’étaient des dizaines de millions il y a quelques années.

>> Quelle est modèle économique du projet Ibou ?

C’est le même que tout le monde. Il ne sera pas mis en avant dans un premier temps, mais ce sera un modèle lié à de la monétisation. C’est un modèle B2C, avec monétisation B2C standard et un peu de publicité, un peu d’affiliation, des fiches entreprises… Le nerf de la guerre, pour financer les opérations, ce sera essentiellement d’avoir du trafic. Comme Google, Bing, etc. Pour l’affiliation, la logique ne sera pas d’avoir un deal exclusif avec un programme d’affiliation en particulier, mais de faire des deals avec plusieurs programmes.

« Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable »

Nous débutons et on sait que ça coute cher d’entretenir un moteur, il faut quelques millions par an, mais ça ne coute pas le prix auquel voudraient nous faire croire les GAFAM. Il n’y a pas besoin de faire 10 milliards de bénéfices pour faire tourner un moteur de recherche. Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable.

>> Est-ce que vous assurerez à vos utilisateurs que leurs données seront protégées ?

Ayant travaillé chez Qwant, je ne sais pas qui est capable de donner une telle garantie. Je pense que c’est littéralement impossible. La donnée utilisateur que nous allons garder qui pourra intéresser le plus le RGPD, ce sera la donnée de personnalisation du Ibou Explorer, à travers un compte utilisateur et le consentement pour l’utiliser.

Mais elle ne sera pas utilisée par les algorithmes de pub, car ceux-ci n’en ont finalement pas besoin. Ils ont besoin juste de savoir ce sur quoi ils s’affichent. Et quand une page s’affiche, maintenant avec les LLM, c’est extrêmement simple de comprendre le contexte de la page. Avec des éléments de contexte suffisant, on peut faire de la pub qui est aussi performante que celle qui utilise l’information utilisateur. Donc pour la pub que nous opérerons nous-mêmes, il n’y aura pas de données utilisateur conservées et utilisées. Après quand on envoie quelqu’un chez un tiers, on ignore ce qui s’y passe.

>> Donc pas de système de traqueurs dans le modèle économique de Ibou ?

Non. Déjà, ce n’est pas notre vision. Et je pense que si on fait ça, on devient un aspirateur de données et on ne fait plus le même moteur. Si on devait faire ça, actuellement, on ferait plus un réseau social.

>> Le copyright et les droits voisins sont des questions sensibles quand on parle de moteur de recherche avec IA générative. Comment envisagez-vous la question ?

Nous envisageons la question verticale par verticale. Sur la partie Ibou Explorer, qui est la plus touchy (80 % des contenus viennent de médias), nous n’allons pas faire de résumé IA. Nous ne voulons pas nous approprier les contenus. Nous ne faisons que du renvoi de trafic vers les tiers, avec un mécanisme d’opt-out et des accords partenariaux.

Sur la partie search, il y aura aussi un mécanisme d’opt-out, car il y a des problématiques qu’on ne pourra jamais résoudre. Pour la partie présentation de l’information, nous voulons systématiquement renvoyer vers les sources. Par exemple, si quelqu’un demande « est-ce qu’il faut un visa pour aller dans tel pays ? », notre système va répondre « oui » ou « non », mais ne va pas donner plus d’informations. Il va, par exemple, répondre « Oui et tout est expliqué sur ce site » et c’est seulement si la personne demande d’aller plus loin sans passer par le site qu’on va donner plus d’informations. Nous voulons renvoyer au maximum vers les sources elles-mêmes.

Nous réfléchissons encore à un mécanisme pour reverser une partie des revenus associés aux réponses qui contiennent cette source, mais nous n’avons aucune idée encore de ce qu’on voudrait faire.

« La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM »

>> Concernant la possibilité de régurgitation de contenus copyrightés, comment gérerez-vous ?

C’est un problème qui n’existera pas. Venant de l’IA, nous faisons partie des gens qui pensent que les LLM ne sont absolument pas autre chose qu’un outil d’écriture. Nous n’utiliserons pas d’information contenue dans le LLM. Ça change d’ailleurs tout pour nous, parce que nous n’avons pas besoin d’utiliser un LLM de très grande dimension comme ceux d’OpenAI ou à 500 milliards de paramètres. Ça n’a aucun intérêt de s’en servir, car s’ils ont autant de paramètres, c’est pour pouvoir s’en servir sur des questions qui nécessitent de la connaissance. C’est une profonde erreur.

La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM. De tous les mastodontes qui existent devant nous, le seul qui est sur une approche un peu près similaire à la nôtre, c’est Perplexity. Mais ChatGPT et les autres font une profonde erreur : ils ne pourront jamais faire des bons outils de recherche, car ils sont persuadés que le LLM peut contenir du savoir et de l’information, ce qui n’est pas vrai. Ils n’ont pas été créés pour ça et on croit qu’ils en contiennent, car ils sont capables de broder un discours sur des bribes d’information qu’ils ont vues. Ce qui n’est pas du tout la même chose que d’avoir de l’information.

Tant qu’on ne va pas au-delà des transformers, la question est réglée par le fait qu’en réalité on a un moteur de recherche avec un index proche de ce qui se faisait avant, mais qui peut être facilement interfacé avec un LLM, qui lui va se contenter d’écrire les réponses. Chacun son rôle : le LLM comprend la langue, le moteur connaît l’information. Le LLM est un documentaliste qui sait utiliser un moteur de recherche et qui peut nous renvoyer vers les contenus pertinents.

C’est aussi le seul moyen de contrôler la véracité d’une information. Sinon, quand on fait confiance à un LLM pour donner une information, il y a toujours 5 à 10 % de taux d’erreur automatiquement.

>> Pourra-t-on utiliser les opérateurs de recherche comme site:, intitle: ou fileformat: ?

Le moteur grand public d’Ibou ne le permettra pas car c’est un moteur conversationnel et que nous n’indexons pas à proprement parler les pages web, mais les informations les plus importantes et une référence à la page. Ainsi, toute une partie des opérateurs devient inopérante, car on peut indexer le titre parce qu’on pense que c’est du contenu important sans pour autant stocker que c’est le titre.

Il y a aussi une API sur l’index qui existe et qu’on utilise pour faire le moteur. Ce n’est pas exclu qu’on permette à d’autres de pouvoir y accéder.

>> Pourquoi, maintenant, pensez-vous que c’est possible d’indexer le web alors que Qwant, pour lequel vous avez travaillé, a essuyé des problèmes pour le faire à l’époque ?

Dans Babbar, on indexe et on crawle déjà beaucoup plus que ce qui est nécessaire pour faire un moteur de recherche, car on vend de la data aux référenceurs. On doit vendre aussi de la data que les moteurs ne prennent pas en compte pour aider les SEO à comprendre pourquoi ils arrivent à se positionner et pourquoi ils n’y arrivent pas.

« Faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile »

À Babbar, on a un index qui était de 2 000 milliards de pages, mais qui a beaucoup diminué pour lancer Ibou : on est maintenant à 1 400 milliards de pages sur la partie Babbar. Et même si ce n’est pas tout à fait les mêmes index puisqu’un moteur a besoin de plus de données mais sur moins de pages, on est sur des choses très similaires. Et faire un index, ce n’est pas un problème : on a déjà un index complet qui tourne avec des résultats de recherche. Mais même si on pense qu’on est déjà meilleurs que d’autres ne l’ont été précédemment, pour l’instant, on estime que notre projet n’est pas encore au niveau et on ne veut pas créer une mauvaise image alors qu’on est encore en train de travailler.

La seule vraie difficulté qu’il y avait avant, ce n’était pas la partie index – que nous avons résolue dans Babbar depuis longtemps –, mais qu’il fallait de la data utilisateur pour faire les choses. Faire un index qui contient les bonnes pages, ce n’est pas difficile, faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile. Ce sont les fonctions de ranking.

Depuis 2005, ces fonctions n’étaient bonnes que s’il y avait une data utilisateur qui permettait de compenser tous les problèmes que les algorithmes ne sont pas capables d’arbitrer. C’est ce qu’on a vu dans le procès de Google : l’utilisation massive de la data comportementale des utilisateurs au niveau du moteur, c’est ça qui fait la qualité du moteur. Et Google est le plus fort, parce qu’il a beaucoup plus de données que Bing par exemple. Mais avec les LLM, il n’y a plus besoin de cette data pour faire quelque chose de bien, parce que le LLM peut simuler l’humain en grande partie et suffisamment bien pour faire les dernières étapes de tris.

Une fois que les algorithmes ont bien travaillé, il reste des scories : peut-être 10, 20 ou 30 % de l’index sont en tête et ne devraient pas, et c’est le LLM qui en enlève une grosse partie. Et en plus, quand on fait la synthèse des réponses, le LLM prenant plusieurs sources simultanément réussit à donner une réponse qui est bien meilleure que si on prenait chaque source indépendamment les unes des autres, en faisant comme l’être humain qui va lire plusieurs contenus pour faire sa propre opinion.

Pour en revenir à la question, cette dernière étape, qui était plus une étape de coût, est beaucoup plus facile à faire et la barrière de la data massive a complètement disparu.

>> Quelle est l’articulation entre Babbar et Ibou ?

C’est la même boite, les mêmes personnes. Nous espérons que tout va bien se passer pour nous, avec peut-être de l’aide de l’extérieur on ne sait pas encore, et qu’on va pouvoir recruter cette année. Par contre, ce sont des infrastructures techniques séparées parce que ce sont des outils qui n’ont pas du tout le même objectif. Donc algorithmiquement, c’est assez différent pour qu’il n’y ait aucun intérêt pour nous à ce que ce soient les mêmes plateformes.

Le crawler de Babbar est un crawler SEO, le crawler d’Ibou sera un moteur de recherche. Nous n’avons pas vocation à être autorisés à crawler de la même manière tous les sites selon le métier. Si on avait un crawler IA, ce serait encore une autre plateforme, car on ne peut pas mélanger les genres et que, pour être respectueux des gens, c’est ce qu’il faut faire. On veut aussi séparer parce que, aujourd’hui, notre activité est largement soutenue par notre activité SEO, mais on se doute qu’à un moment donné se posera la question de savoir si les deux activités doivent rester côte à côte ou pas.

>> Quand Ibou sera disponible ?

Pas avant un an. Pour les premières verticales, comme la partie Ibou Explorer (ndlr : l’équivalent de Google Discover), ça devrait arriver début 2026.

  •  

☕️ Une gardienne de la paix arrêtée pour avoir vendu des fichiers policiers sur Snapchat

Une gardienne de la paix de 25 ans et son « petit ami » de 31 ans ont été arrêtés la semaine passée pour avoir vendu via Snapchat des informations émanant de fichiers policiers.

L’enquête aurait débuté en mai dernier, après que des enquêteurs de l’Office anti-cybercriminalité (OFAC) ont eu découvert une « story » Snapchat proposant d’acheter des accès à des fichiers policiers, rapportent BFMTV et Le Figaro.

Les investigations téléphoniques ont permis de remonter à une policière « affectée à la garde bâtimentaire et donc pas en charge d’enquêtes », précise le parquet de Paris. Depuis début 2024, elle aurait néanmoins effectué 94 consultations frauduleuses du fichier du traitement des antécédents judiciaires (TAJ) et 169 du fichier des personnes recherchées (FPR).

Son compte bancaire a par ailleurs permis d’identifier des virements de 15 à 5 000 euros émanant des personnes concernées, pour un bénéfice estimé à 12 000 euros.

Son petit ami, « très défavorablement connu des services de police » (expression désignant généralement le fait d’avoir été plusieurs fois « mis en cause » – MEC – dans le TAJ), se chargeait de trouver des clients. Les tarifs allaient de 30 euros pour une consultation du système d’immatriculation des véhicules (SIV), 150 euros pour le FPR, jusqu’à 250 euros pour une levée d’immobilisation d’un véhicule.

Les suspects ont été placés sous contrôle judiciaire avec interdiction d’entrer en contact et de quitter le territoire, et interdiction d’exercer toute fonction publique pour la policière, d’ici leur procès prévu pour le 15 juin 2026.

Le Figaro souligne par ailleurs que les affaires relatives aux « atteintes à la probité » dans la police nationale ont « pratiquement doublé en cinq ans », passant de 137 à 234 entre 2020 et l’année dernière. Cette « démocratisation » de la consultation des fichiers policiers résulterait du fait qu’ils sont accessibles à un plus grand nombre de fonctionnaires, ainsi qu’à la numérisation des procédures.

Le dernier rapport de l’Inspection générale de la Police nationale (IGPN, la « police des polices »), révèle que 93 enquêtes ont été ouvertes en 2024 pour « violation du secret professionnel » (soit le même nombre qu’en 2023), et 75 autres pour « détournement de fichiers » (93 en 2023). Ces violations ont donné lieu à 24 enquêtes ouvertes pour « corruption active » et 42 pour corruption passive, soit le double qu’en 2023.

L’IGPN avait alors annoncé vouloir renforcer le contrôle d’accès aux fichiers policiers, précisant qu’un chef de projet et deux « data scientists » travaillaient au développement d’un algorithme capable de détecter les usages « anormaux ».

  •  

OpenAI n'est pas « trop grande pour faire faillite », estime un économiste : pourquoi la domination de l'IA générative ne garantit ni la rentabilité ni la résilience économique à long terme

OpenAI n'est pas « trop grande pour faire faillite », estime un économiste :
pourquoi la domination de l'IA générative ne garantit ni la rentabilité ni la résilience économique à long terme

À mesure que l'intelligence artificielle s'impose comme un pilier de l'économie numérique, certaines entreprises finissent par être perçues comme intouchables. OpenAI incarne parfaitement cette tentation : omniprésente, technologiquement dominante et au coeur de multiples chaînes de valeur. Pourtant, selon...

  •  

Fêtes de fin d'année : jusqu'à 200 € de réduction sur les aspirateurs Dyson

Entre la préparation des réveillons, l'arrivée de la famille, les enfants qui courent partout avec leurs nouveaux jouets et le lendemain de fête où tout est à refaire, se doter du top de l'aspirateur n'a rien d'un luxe ! Dyson l'a bien compris et affiche actuellement des réductions allant jusqu'à 200 euros sur trois de ses modèles sans fil : le V11 F...

  •