Mistral AI lance Voxtral Transcribe 2 avec deux modèles distincts : Voxtral Mini Transcribe V2 pour les lots et Voxtral Realtime pour la dictée continue. Ce dernier est publié avec des poids sous licence Apache 2.0, un geste rare sur ce segment, et vise des intégrations embarquées ou des services temps réel où la latence est critique.
Un modèle temps réel à 4B axé sur la latence
Voxtral Realtime affiche un gabarit de 4 milliards de paramètres et une architecture de streaming repensée. Le moteur démarre la transcription à l’arrivée du flux audio et revendique une latence inférieure à 200 ms, compatible avec les cas d’usage interactifs, les overlays de sous-titres et l’assistance vocale in-app.
Le modèle couvre 13 langues, dont le chinois. L’API est facturée 0,006 $/min, soit environ 0,006 € TTC/min aux taux actuels (conversion indicative).
Un « Mini V2 » calibré pour le volume
Voxtral Mini Transcribe V2 vise le coût par minute et la longueur de contexte. Mistral annonce une précision supérieure à GPT‑4o mini Transcribe et Gemini 2.5 Flash, avec des imports continus jusqu’à 3 heures par requête, utile pour des rushs, des conférences ou des archives podcasts.
L’API est annoncée à 0,003 $/min, soit environ 0,003 € TTC/min en conversion directe. Le modèle supporte également 13 langues, dont le chinois, ce qui simplifie les pipelines multilingues sans changer d’outil.
Ouverture et implications
L’ouverture des poids de Voxtral Realtime sous Apache 2.0 met une pression directe sur les offres cloud fermées en temps réel. Entre un coût plancher pour les traitements massifs et un moteur réactif intégrable on-prem ou en edge, Mistral couvre les deux extrêmes du marché de la transcription, avec un angle agressif sur la latence et le TCO.
Source : ITHome