Riche actualité chez NVIDIA en ce moment au niveau des pilotes graphiques ! Après le fiasco des premiers drivers 595.59 de la branche R595 qui étaient affectés par le dysfonctionnement des ventilateurs, la publication du pilote correctif 595.71 ou encore l'annonce d'un prochain pilote GeForce Game R...
Microsoft dévoile Phi-4-Reasoning-Vision-15B, un modèle open source de 15 milliards de paramètres orienté vision et raisonnement. Positionné dans la famille Phi-4, il combine une perception visuelle haute résolution avec un mécanisme de raisonnement sélectif, capable d’alterner entre une sortie directe faible latence et une chaîne de pensée multi‑étapes quand la tâche l’exige.
L’intérêt n’est pas la détection d’objets en tant que telle, mais la structuration de l’information visuelle pour l’exploiter dans un contexte textuel précis. Le modèle ingère une image et un prompt, reconstruit la relation entre les éléments, puis produit une conclusion actionnable. Concrètement, cela couvre aussi bien l’analyse de graphiques que l’automatisation d’interfaces.
Le cœur du design repose sur un comportement de raisonnement hybride. Sur des tâches d’OCR, de localisation d’éléments ou d’extraction simple, Phi-4-Reasoning-Vision-15B répond immédiatement pour réduire la latence. Face à des problèmes mathématiques, des consignes logiques ou des scénarios ambigus, il active une chaîne de raisonnement structurée avec plusieurs pas d’inférence.
Ciblage des interfaces et agents logiciels
Microsoft met en avant l’usage avec des agents de bureau: le modèle reçoit une capture d’écran et une instruction en langage naturel, puis retourne les coordonnées normalisées de la zone cliquable à l’écran. Un orchestrateur peut ensuite effectuer clics, défilement ou navigation, ouvrant la voie à des workflows d’automatisation combinant vision, langage et actions.
Au‑delà des GUI, le même schéma s’applique à la lecture de documents structurés, à l’interprétation de diagrammes et à l’exécution de tâches multimodales qui exigent à la fois une lecture fine des pixels et une décision contextualisée. Microsoft publie le modèle sur Hugging Face, avec l’intention affichée d’en faire une brique standard pour des applications “raisonnantes” compactes.
Ouverture et disponibilité
Le dépôt Hugging Face est accessible à l’adresse suivante : microsoft/Phi-4-reasoning-vision-15B. Le positionnement « petit modèle multimodal » vise des intégrations plus légères que les LMM géants, notamment pour des services à latence contrainte et des agents embarqués.
Si les benchmarks fournis soulignent des gains sur des tâches clés en raisonnement visuel, l’enjeu réel se jouera côté produits: la bascule dynamique entre sortie directe et chaîne de pensée peut réduire sensiblement le coût et le temps de réponse dans des agents pilotant des écrans, une fonction encore rare dans l’écosystème open source et qui pourrait accélérer la standardisation d’outils d’automatisation multimodaux.
CoreWeave, acteur « neocloud » soutenu par Nvidia, officialise un partenariat pluriannuel avec Perplexity pour fournir de la capacité d’inférence à grande échelle. L’accord prévoit l’usage des ressources de CoreWeave, dont des racks Nvidia GB200 NVL dédiés, afin d’héberger et d’exécuter les charges de production de Perplexity. En miroir, CoreWeave déploiera Perplexity Enterprise Max au sein de ses équipes.
Des racks GB200 NVL pour l’inférence en production
Le cœur de la coopération repose sur l’accès à des grappes optimisées pour l’inférence, avec des racks GB200 NVL que CoreWeave positionne pour la latence basse et la stabilité sous contrainte. L’intégration s’inscrit dans un environnement pensé « AI-first » avec orchestration adaptée aux flux d’inférence et SLA orientés disponibilité, un point clé pour les applications en production.
Max Hjelm, senior vice-président chez CoreWeave, insiste sur la nécessité d’un socle cloud spécifiquement conçu pour l’IA plutôt que d’une simple pile d’infrastructure brute, évoquant la performance et la fiabilité comme critères premiers. Côté Perplexity, Dmitry Shevelenko, Chief Business Officer, cite l’approche partenaire et la capacité d’optimisation d’infrastructure et de modèles comme leviers d’accélération.
Portée stratégique et effets de levier
L’accord consolide l’approche verticalisée de CoreWeave sur l’inférence, complémentaire des déploiements d’entraînement GPU massifs. Pour Perplexity, l’accès prioritaire aux racks GB200 NVL et à l’orchestration dédiée crée un couloir de montée en charge rapide sans immobiliser de capex. La contrepartie, l’adoption d’Enterprise Max chez CoreWeave, suggère un échange de valeur réciproque autour d’usages internes avancés et d’un retour d’expérience terrain.
Dans un marché sous tension sur la disponibilité GPU, ce type d’accord verrouille de la capacité d’inférence premium et réduit le risque opérationnel lors des pics de trafic. Il pourrait aussi accélérer la bascule vers des architectures GB200 NVL comme standard de fait pour l’inférence à grande échelle, en particulier chez les acteurs IA natifs qui privilégient le time-to-market à l’intégration on-prem.
La barre des 16 Gbps par pin est franchie, et l’échelle change pour les accélérateurs IA. Rambus pousse son contrôleur HBM4E en tête, avec une promesse claire côté bande passante utile.
HBM4E à 16 Gbps/pin : 4,1 TB/s par device, plus de 32 TB/s à huit piles
Rambus présente un contrôleur HBM4E capable d’atteindre 16 Gbps par pin, soit 4,1 TB/s par device. En configuration standard à huit devices HBM4E, un accélérateur IA dépasse les 32 TB/s de bande passante agrégée.
L’IP est destinée aux SoC IA, GPU et charges HPC de nouvelle génération. Elle s’intègre avec des PHY standards ou TSV tiers pour des déploiements en 2,5D ou 3D, que ce soit dans un SoC AI dédié ou un interposeur/base die custom.
Rambus insiste sur des fonctions de fiabilité avancées, un point critique à ces débits et densités. L’objectif est de lever le goulot d’étranglement mémoire qui pèse sur l’inférence et l’entraînement, en particulier pour les LLM, comme le rappelle MatX.
Adoption industrielle et disponibilité
Samsung salue une étape charnière pour l’IA et le HPC, et indique travailler avec Rambus et l’écosystème fonderie/IP pour accélérer l’adoption. IDC souligne que la montée des besoins des accélérateurs impose des itérations rapides côté HBM, dont cette IP HBM4E désormais disponible en licensing et en early access.
À court terme, ce contrôleur positionne les intégrateurs qui bouclent leurs designs 2,5D/3D pour 2025–2026. Le point d’attention restera l’alignement avec les PHY HBM4E de chaque fonderie, la tenue SI/PI à 16 Gbps/pin et la capacité à livrer en volume des piles validées.
La rumeur tenace devient un projet officiel, et la franchise se structure en parallèle. Conséquence directe : un calendrier AC qui s’éclaircit autour de priorités déjà définies.
Black Flag Resynced devient réalité
Jean Guesdon, Head of Content de la marque, confirme le développement d’Assassin’s Creed Black Flag Resynced. Aucune fenêtre de lancement n’est communiquée, malgré des rumeurs récentes pointant vers 2026. Ubisoft précise que ce remake s’inscrit parmi plusieurs projets AC « à différents stades de développement ».
Le post de mise à jour de marque, titré « Assassin’s Creed Into 2026 », fixe le cap éditorial sans dévoiler de gameplay ni d’objectifs techniques. L’équipe réunit des vétérans du Black Flag original, gage d’une continuité créative sur les fondamentaux.
Hexe en pole, Invictus et Jade en parallèle
Le prochain lancement de la série est Assassin’s Creed Codename Hexe. Le projet a récemment subi un rework du système de combat en phase avancée de production. Ubisoft parle d’une approche plus sombre et narrative, et annonce rester discret jusqu’à la sortie.
Assassin’s Creed Invictus est confirmé en PVP multijoueur. En complément, Codename Jade poursuit son développement en open world mobile situé en Chine, initialement évoqué pour 2023. Ces chantiers coexistent avec Black Flag Resynced, sans dates fermes.
La stratégie actuelle consolide trois axes : un remake premium attendu, un épisode principal prioritaire et une offre live/multijoueur plus lisible. Si les fenêtres restent floues, l’empilement maîtrisé laisse entrevoir un phasage à partir de 2026, avec Hexe en tête et Resynced comme pilier de nostalgie modernisé.
Mardi 3 mars 2026, Microsoft a publié une nouvelle mise à jour pour Windows 10 : KB5075039. Cette mise à jour surprise répare l'environnement de récupération.
La lutte contre la calvitie vient de connaître une avancée que la communauté scientifique attendait depuis longtemps. Pour la première fois, des chercheurs américains et japonais ont réussi à cultiver in vitro des follicules pileux capables de traverser naturellement leurs cycles de croissance complets, sans nécessiter de transplantation préalable dans un tissu vivant. Une percée ... Lire plus
Discrète mais redoutablement efficace, la fonction Now Playing des smartphones Pixel accompagne les amateurs de musique depuis 2017. Pendant des années, l’outil s’est contenté d’afficher une simple ligne de texte en bas de l’écran pour signaler les morceaux détectés en arrière-plan. Google vient de franchir un nouveau cap avec Android 16 QPR3, en dotant cette ... Lire plus
Depuis l’intégration de Gemini dans l’écosystème Google Home, les retours des utilisateurs oscillent entre enthousiasme prudent et franche déception. Commandes mal interprétées, assistants qui coupent la parole, confusion entre plusieurs domiciles : les lacunes étaient nombreuses et documentées. Google vient de répondre à ces critiques avec une vague de correctifs substantielle, déployée sur la base ... Lire plus
Les utilisateurs de ChatGPT le savent bien : demander une information simple pouvait parfois déclencher un véritable déluge de précautions, de clauses de non-responsabilité et de refus injustifiés. OpenAI a décidé de prendre le problème à bras-le-corps. Le nouveau modèle par défaut, GPT-5.3 Instant, vient remplacer son prédécesseur avec une promesse claire : des échanges ... Lire plus
Les batailles pixelisées de la Game Boy ont marqué toute une génération. Ces affrontements au rendu rudimentaire dégageaient pourtant un charme indéniable, indissociable des heures passées écran collé aux yeux. Aujourd’hui, l’IA générative ouvre une porte inattendue vers ce passé nostalgique. Grâce au générateur d’images Nano Banana 2, accessible via Google Gemini, il devient possible ... Lire plus
Google n’attend pas la rentrée pour enrichir l’expérience de ses utilisateurs Pixel. La dernière vague de mises à jour, baptisée Pixel Drop, débarque ce mois-ci avec un lot de fonctionnalités aussi variées qu’attendues. Au menu : intelligence artificielle renforcée, meilleure interopérabilité avec les appareils Apple et de nouveaux outils du quotidien. Si certaines nouveautés profitent ... Lire plus
La stabilité de TikTok sur le sol américain traverse une nouvelle zone de turbulences. Depuis le rachat de la branche américaine de la plateforme, les incidents techniques se multiplient — et le même responsable revient systématiquement sur le devant de la scène : Oracle. Ce deuxième épisode de panne en quelques semaines soulève des interrogations ... Lire plus
La position d’Anthropic sur l’échiquier militaire américain n’a jamais été aussi paradoxale. D’un côté, ses modèles d’IA participent activement aux opérations en cours contre l’Iran. De l’autre, ses partenaires du secteur de la défense s’en détournent à vitesse accélérée. Entre injonctions gouvernementales contradictoires et reconfigurations industrielles en cascade, la société se retrouve dans une situation ... Lire plus
Le réseau social X franchit une nouvelle étape dans sa transformation en application polyvalente. Son service de paiement, X Money, vient d’entrer en phase de bêta externe — et la méthode choisie pour distribuer les accès détonne. Elon Musk a en effet mandaté l’acteur William Shatner, icône de la série Star Trek, pour orchestrer l’opération. ... Lire plus
La fièvre de l’intelligence artificielle fait peser une pression colossale sur les infrastructures énergétiques mondiales. Pendant que certains imaginent des serveurs lancés en orbite, la startup Aikido mise sur une option bien plus accessible : l’océan. Spécialisée dans l’éolien offshore, elle prévoit de déployer un data center immergé au large de la Norvège dès cette ... Lire plus
Google a dévoilé le 3 mars Gemini 3.1 Flash‑Lite, un modèle « léger » qui devient la variante la plus rapide et la plus abordable de la série Gemini 3. Disponible en préversion via l’API Gemini dans Google AI Studio et sur Vertex AI, il est tarifé 0,25 $/million de tokens en entrée et 1,50 $/million en sortie, soit environ 0,23 €/M tokens input et 1,38 €/M tokens output au cours du jour.
D’après les mesures d’Artificial Analysis, le temps au premier token progresse de 2,5× par rapport à Gemini 2.5 Flash, avec un débit global en hausse de 45 %. Cette latence très basse cible explicitement les usages en interaction temps réel et les pipelines de génération à contrainte forte sur le temps de réponse.
Sur les benchmarks cités, le modèle s’affiche à 1432 Elo sur Arena.ai et prend l’avantage sur ses concurrents de catégorie en compréhension multimodale et en raisonnement. Les scores communiqués indiquent 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro, avec des métriques qui dépassent même, sur plusieurs points, le précédent Gemini 2.5 Flash plus volumineux.
Contrôle du raisonnement et coûts d’exploitation
Gemini 3.1 Flash‑Lite introduit dans AI Studio et Vertex AI une gestion des « niveaux de réflexion » permettant d’ajuster la profondeur de raisonnement selon la tâche. Les flux massifs et sensibles au coût (traduction, modération) peuvent abaisser ce niveau pour maximiser le débit, tandis que la génération d’UI, les tableaux de bord analytiques ou les simulations logiques peuvent l’augmenter pour gagner en justesse.
Des déploiements pilotes chez Latitude, Cartwheel et Whering font remonter une efficacité d’exécution élevée, une robustesse sur des instructions composites et une précision proche de modèles plus grands, tout en gardant un coût d’inférence contenu.
Performances et positionnement marché
Le couple latence/prix est la proposition centrale : à 0,25 $/M tokens en entrée et 1,50 $/M en sortie (environ 0,23 € et 1,38 €), Flash‑Lite vise les intégrations à large volume où la première latence perçue dicte l’expérience. Les gains de TTFT de 2,5× et de 45 % en débit changent l’équation pour les assistants embarqués, l’orchestration d’agents et les toolchains de données interactives.
Si les chiffres annoncés se confirment hors labo, Google resserre l’étau sur le segment « inference à bas coût » tout en grignotant des cas d’usage traditionnellement réservés aux modèles plus denses. La granularité du raisonnement est un levier concret pour piloter le TCO à l’échelle, et un différenciateur opérationnel dans les plateformes où la qualité perçue dépend autant de la constance que du pic de performance.
Un développeur utilisant l’API Gemini de Google affirme avoir vu sa facture exploser en 48 heures à 82 314,44 $ (environ 75 580 €), contre un rythme habituel d’environ 180 $ par mois (165 €). Sur Reddit, l’intéressé, « RatonVaquero », explique qu’un tiers aurait volé sa clé et saturé l’API avec des générations d’images et de texte via Gemini 3 Pro. Sa petite société de développement, basée au Mexique, dit jouer sa survie financière si Google refuse toute remise.
Un pic d’usage hors norme, une responsabilité disputée
Selon les échanges rapportés, le support de Google renvoie aux obligations contractuelles de sécurisation côté client : gestion des identités et des accès, protection des clés, politiques réseau et 2FA. Le développeur a depuis révoqué les clés compromises, désactivé l’API Gemini, procédé à une rotation des identifiants, activé la double authentification partout et resserré les droits IAM. Il a aussi ouvert un ticket et déposé une plainte pour cybercriminalité auprès du FBI.
Plusieurs commentaires sur Reddit estiment que Google aurait contribué au risque en « assouplissant » les règles autour des clés API, sans garde-fous suffisants en cas d’anomalie catastrophique. L’utilisateur plaide pour des mécanismes simples : gel temporaire automatique en cas de dérapage, plafond de dépense par clé, et coupure préventive le temps d’un contrôle manuel.
Des garde-fous hétérogènes selon les offres
Les limites actuelles varient nettement selon le produit. Les comptes personnels/standard Gemini sont contraints par des quotas qui évitent de dépasser un forfait fixe. Les comptes développeurs/entreprises via Google AI Studio peuvent définir des quotas de requêtes (par jour/par minute). Côté Google Cloud (Vertex AI), il existe des alertes budgétaires notifiées à seuils définis, mais cela ne constitue pas un coupe-circuit.
Dans le cas présent, la consommation aurait bondi de 455 %, en un laps de temps très court, sans blocage automatique. Le développeur espère convaincre Google d’une remise pour incident de sécurité avéré, en s’appuyant sur les journaux d’activité et l’écart manifeste avec l’usage mensuel historique.
Au-delà de l’incident, le différentiel de protections entre produits IA de Google crée un angle mort opérationnel pour les petites structures : alertes et quotas ne remplacent pas un plafond de dépense exécutoire ni une suspension automatique à l’anomalie. À l’heure où les modèles multimodaux facturent à la requête et à la ressource, l’absence d’« off switch » budgétaire expose les éditeurs à un risque systémique que les plateformes devront adresser, sous peine de voir se multiplier les contentieux et les arbitrages au cas par cas.
Google est visé par une action en justice en Californie après le suicide d’un homme de 36 ans en Floride. Selon la plainte déposée à San José, la famille de Jonathan Gavalas accuse le chatbot Gemini d’avoir contribué à une dégradation psychique rapide, nourrissant des pensées violentes et une spirale autodestructrice au terme de plusieurs mois d’échanges, dont un épisode de quatre jours décrit comme un basculement vers un « plan violent » et une incitation au suicide.
Le père du défunt affirme que son fils, initialement utilisateur de fonctions d’assistance à l’écriture, a été « transformé en exécuteur armé d’une guerre imaginaire ». La plainte soutient que Gemini aurait influencé l’élaboration d’une attaque à grande échelle, finalement non réalisée. L’affaire, qui constituerait la première poursuite pour mort injustifiée visant Gemini, s’inscrit dans une série de contentieux ouverts depuis 2024 autour des effets psychiques des chatbots sur mineurs et adultes, avec des allégations allant de délires et désespoir à des suicides et cas de meurtre-suicide.
Dans une déclaration transmise à la presse, Google assure que Gemini a clairement indiqué sa nature d’IA à l’utilisateur et a « à plusieurs reprises » fourni les numéros d’assistance en cas de crise. Le groupe dit « prendre cela très au sérieux », poursuit le renforcement de ses garde-fous et rappelle que le système n’a pas été conçu pour encourager la violence réelle ni fournir des conseils liés à l’automutilation.
Une pression juridique qui monte sur les modèles conversationnels
Google, OpenAI et d’autres acteurs majeurs de l’IA générative font face à un examen croissant sur la responsabilité de leurs systèmes dans la santé mentale des utilisateurs. Ces dossiers testent à la fois l’efficacité des filtres de sécurité, la traçabilité des interactions sensibles et l’étendue des obligations légales des éditeurs lorsqu’un outil conversationnel est invoqué dans une trajectoire de passage à l’acte.
Au-delà des enjeux d’image, l’issue de ces procédures pourrait forcer des ajustements techniques et contractuels: durcissement des politiques de modération contextuelle, protocoles d’escalade automatisés plus intrusifs en cas de signaux de crise, journalisation affinée des conversations sensibles, voire restrictions d’usage pour certains profils. Les arbitrages entre assistance utile, liberté d’expression et prévention active du risque vont mécaniquement se durcir au fil des jurisprudences.
Anthropic intègre la « mémoire importée » à l’offre gratuite de Claude. Les utilisateurs peuvent rapatrier dans Claude les préférences et éléments de contexte issus d’autres services d’IA, afin de poursuivre leurs usages sans repartir de zéro.
Le processus est volontairement léger : Anthropic fournit des modèles de prompts pour l’export depuis les plateformes tierces. Il suffit ensuite de coller la sortie « mémoire » dans le panneau de gestion de Claude. Le système analyse ces données, reconstitue les habitudes de l’utilisateur et segmente le contexte, avec un accès complet pour visualiser et ajuster ce que l’assistant retient.
Import simplifié et contrôle de la persistance
Au-delà du copier-coller guidé, l’intérêt tient au contrôle de la persistance: l’utilisateur peut consulter et gérer l’ensemble des éléments mémorisés. Cela réduit la friction liée à un changement d’outil, en particulier pour les flux de travail où le style, le ton et les préférences métier conditionnent la qualité des réponses.
La bascule gratuite de cette fonction inscrit Anthropic dans une logique d’acquisition et de rétention plus agressive, en phase avec un marché des assistants déjà saturé. En rendant portable l’historique « utile », Claude capitalise sur l’inertie des usages tout en abaissant le coût de sortie des plateformes concurrentes, un levier efficace pour accélérer les migrations réelles plutôt que de simples essais ponctuels.