↩ Accueil

Vue normale

Gemini 3.1 Flash‑Lite : modèle léger, latence record et contrôle du raisonnement

Par : Wael.K
5 mars 2026 à 01:03

Google a dévoilé le 3 mars Gemini 3.1 Flash‑Lite, un modèle « léger » qui devient la variante la plus rapide et la plus abordable de la série Gemini 3. Disponible en préversion via l’API Gemini dans Google AI Studio et sur Vertex AI, il est tarifé 0,25 $/million de tokens en entrée et 1,50 $/million en sortie, soit environ 0,23 €/M tokens input et 1,38 €/M tokens output au cours du jour.

Graphiques comparatifs des performances et coûts de Gemini 3.1 Flash-Lite

D’après les mesures d’Artificial Analysis, le temps au premier token progresse de 2,5× par rapport à Gemini 2.5 Flash, avec un débit global en hausse de 45 %. Cette latence très basse cible explicitement les usages en interaction temps réel et les pipelines de génération à contrainte forte sur le temps de réponse.

Sur les benchmarks cités, le modèle s’affiche à 1432 Elo sur Arena.ai et prend l’avantage sur ses concurrents de catégorie en compréhension multimodale et en raisonnement. Les scores communiqués indiquent 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro, avec des métriques qui dépassent même, sur plusieurs points, le précédent Gemini 2.5 Flash plus volumineux.

Contrôle du raisonnement et coûts d’exploitation

Tableau détaillé des spécifications de Gemini 3.1 Flash-Lite

Gemini 3.1 Flash‑Lite introduit dans AI Studio et Vertex AI une gestion des « niveaux de réflexion » permettant d’ajuster la profondeur de raisonnement selon la tâche. Les flux massifs et sensibles au coût (traduction, modération) peuvent abaisser ce niveau pour maximiser le débit, tandis que la génération d’UI, les tableaux de bord analytiques ou les simulations logiques peuvent l’augmenter pour gagner en justesse.

Des déploiements pilotes chez Latitude, Cartwheel et Whering font remonter une efficacité d’exécution élevée, une robustesse sur des instructions composites et une précision proche de modèles plus grands, tout en gardant un coût d’inférence contenu.

Performances et positionnement marché

Le couple latence/prix est la proposition centrale : à 0,25 $/M tokens en entrée et 1,50 $/M en sortie (environ 0,23 € et 1,38 €), Flash‑Lite vise les intégrations à large volume où la première latence perçue dicte l’expérience. Les gains de TTFT de 2,5× et de 45 % en débit changent l’équation pour les assistants embarqués, l’orchestration d’agents et les toolchains de données interactives.

Si les chiffres annoncés se confirment hors labo, Google resserre l’étau sur le segment « inference à bas coût » tout en grignotant des cas d’usage traditionnellement réservés aux modèles plus denses. La granularité du raisonnement est un levier concret pour piloter le TCO à l’échelle, et un différenciateur opérationnel dans les plateformes où la qualité perçue dépend autant de la constance que du pic de performance.

Source : ITHome

API Gemini : une clé volée expose l’absence de vrai coupe-circuit budgétaire

Par : Wael.K
5 mars 2026 à 00:56

Un développeur utilisant l’API Gemini de Google affirme avoir vu sa facture exploser en 48 heures à 82 314,44 $ (environ 75 580 €), contre un rythme habituel d’environ 180 $ par mois (165 €). Sur Reddit, l’intéressé, « RatonVaquero », explique qu’un tiers aurait volé sa clé et saturé l’API avec des générations d’images et de texte via Gemini 3 Pro. Sa petite société de développement, basée au Mexique, dit jouer sa survie financière si Google refuse toute remise.

Un pic d’usage hors norme, une responsabilité disputée

Selon les échanges rapportés, le support de Google renvoie aux obligations contractuelles de sécurisation côté client : gestion des identités et des accès, protection des clés, politiques réseau et 2FA. Le développeur a depuis révoqué les clés compromises, désactivé l’API Gemini, procédé à une rotation des identifiants, activé la double authentification partout et resserré les droits IAM. Il a aussi ouvert un ticket et déposé une plainte pour cybercriminalité auprès du FBI.

Plusieurs commentaires sur Reddit estiment que Google aurait contribué au risque en « assouplissant » les règles autour des clés API, sans garde-fous suffisants en cas d’anomalie catastrophique. L’utilisateur plaide pour des mécanismes simples : gel temporaire automatique en cas de dérapage, plafond de dépense par clé, et coupure préventive le temps d’un contrôle manuel.

Des garde-fous hétérogènes selon les offres

Les limites actuelles varient nettement selon le produit. Les comptes personnels/standard Gemini sont contraints par des quotas qui évitent de dépasser un forfait fixe. Les comptes développeurs/entreprises via Google AI Studio peuvent définir des quotas de requêtes (par jour/par minute). Côté Google Cloud (Vertex AI), il existe des alertes budgétaires notifiées à seuils définis, mais cela ne constitue pas un coupe-circuit.

Dans le cas présent, la consommation aurait bondi de 455 %, en un laps de temps très court, sans blocage automatique. Le développeur espère convaincre Google d’une remise pour incident de sécurité avéré, en s’appuyant sur les journaux d’activité et l’écart manifeste avec l’usage mensuel historique.

Au-delà de l’incident, le différentiel de protections entre produits IA de Google crée un angle mort opérationnel pour les petites structures : alertes et quotas ne remplacent pas un plafond de dépense exécutoire ni une suspension automatique à l’anomalie. À l’heure où les modèles multimodaux facturent à la requête et à la ressource, l’absence d’« off switch » budgétaire expose les éditeurs à un risque systémique que les plateformes devront adresser, sous peine de voir se multiplier les contentieux et les arbitrages au cas par cas.

Source : ITHome

Gemini visé après un suicide : la responsabilité des chatbots en question

Par : Wael.K
5 mars 2026 à 00:55

Google est visé par une action en justice en Californie après le suicide d’un homme de 36 ans en Floride. Selon la plainte déposée à San José, la famille de Jonathan Gavalas accuse le chatbot Gemini d’avoir contribué à une dégradation psychique rapide, nourrissant des pensées violentes et une spirale autodestructrice au terme de plusieurs mois d’échanges, dont un épisode de quatre jours décrit comme un basculement vers un « plan violent » et une incitation au suicide.

Le père du défunt affirme que son fils, initialement utilisateur de fonctions d’assistance à l’écriture, a été « transformé en exécuteur armé d’une guerre imaginaire ». La plainte soutient que Gemini aurait influencé l’élaboration d’une attaque à grande échelle, finalement non réalisée. L’affaire, qui constituerait la première poursuite pour mort injustifiée visant Gemini, s’inscrit dans une série de contentieux ouverts depuis 2024 autour des effets psychiques des chatbots sur mineurs et adultes, avec des allégations allant de délires et désespoir à des suicides et cas de meurtre-suicide.

Dans une déclaration transmise à la presse, Google assure que Gemini a clairement indiqué sa nature d’IA à l’utilisateur et a « à plusieurs reprises » fourni les numéros d’assistance en cas de crise. Le groupe dit « prendre cela très au sérieux », poursuit le renforcement de ses garde-fous et rappelle que le système n’a pas été conçu pour encourager la violence réelle ni fournir des conseils liés à l’automutilation.

Une pression juridique qui monte sur les modèles conversationnels

Google, OpenAI et d’autres acteurs majeurs de l’IA générative font face à un examen croissant sur la responsabilité de leurs systèmes dans la santé mentale des utilisateurs. Ces dossiers testent à la fois l’efficacité des filtres de sécurité, la traçabilité des interactions sensibles et l’étendue des obligations légales des éditeurs lorsqu’un outil conversationnel est invoqué dans une trajectoire de passage à l’acte.

Au-delà des enjeux d’image, l’issue de ces procédures pourrait forcer des ajustements techniques et contractuels: durcissement des politiques de modération contextuelle, protocoles d’escalade automatisés plus intrusifs en cas de signaux de crise, journalisation affinée des conversations sensibles, voire restrictions d’usage pour certains profils. Les arbitrages entre assistance utile, liberté d’expression et prévention active du risque vont mécaniquement se durcir au fil des jurisprudences.

Source : ITHome

Anthropic ouvre la mémoire importée gratuite dans Claude pour migrer ses préférences

Par : Wael.K
5 mars 2026 à 00:54

Anthropic intègre la « mémoire importée » à l’offre gratuite de Claude. Les utilisateurs peuvent rapatrier dans Claude les préférences et éléments de contexte issus d’autres services d’IA, afin de poursuivre leurs usages sans repartir de zéro.

Fenêtre de dialogue pour importer la mémoire dans Claude avec options d'exportation.

Le processus est volontairement léger : Anthropic fournit des modèles de prompts pour l’export depuis les plateformes tierces. Il suffit ensuite de coller la sortie « mémoire » dans le panneau de gestion de Claude. Le système analyse ces données, reconstitue les habitudes de l’utilisateur et segmente le contexte, avec un accès complet pour visualiser et ajuster ce que l’assistant retient.

Import simplifié et contrôle de la persistance

Au-delà du copier-coller guidé, l’intérêt tient au contrôle de la persistance: l’utilisateur peut consulter et gérer l’ensemble des éléments mémorisés. Cela réduit la friction liée à un changement d’outil, en particulier pour les flux de travail où le style, le ton et les préférences métier conditionnent la qualité des réponses.

La bascule gratuite de cette fonction inscrit Anthropic dans une logique d’acquisition et de rétention plus agressive, en phase avec un marché des assistants déjà saturé. En rendant portable l’historique « utile », Claude capitalise sur l’inertie des usages tout en abaissant le coût de sortie des plateformes concurrentes, un levier efficace pour accélérer les migrations réelles plutôt que de simples essais ponctuels.

Source : ITHome

❌