Mistral dévoile deux modèles de transcription multilingue, dont un en quasi-temps réel
L’IA générative aura grandement fait progresser les technologies de transcription. Si l’on parle souvent du Whisper d’OpenAI, Mistral a présenté aujourd’hui une famille de modèles pensés pour cet usage. L’un d’entre eux est spécifiquement pensé pour la transcription en temps réel.

La famille se compose de deux modèles. Le premier est Voxtral Mini Transcribe V2, que l’on nous présente comme à la pointe et prenant en charge le découpage selon les intervenants, le biais contextuel ainsi qu’un horodatage au niveau des mots. Il fonctionne avec 13 langues, à savoir l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais. Plutôt pensé pour transcrire de gros lots de fichiers à la fois, il peut traiter des enregistrements jusqu’à 3 heures en une requête.
De son côté, Voxtral Realtime a été conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, ce qui permet de s’en servir en temps réel. Selon Mistral, il surpasse GPT-4o mini Transcribe et Gemini 2.5 Flash. Prenant lui aussi en charge 13 langues, il est disponible en open-weights sous licence Apache 2.0 et peut être essayé dans Mistral Studio ou via le chatbot Le Chat.
Voxtral Realtime fait 4 milliards de paramètres et est donc suffisamment petit pour tourner sur un téléphone ou un ordinateur en local. Selon Mistral, ces deux nouveaux modèles sont à la fois moins coûteux à exploiter et moins sujets aux erreurs que les alternatives concurrentes.
Voxtral Mini Transcribe V2 est disponible via une API à 0,003 $ la minute, tandis que la variante temps réel est annoncée à 0,006 $ la minute. Cette dernière est intéressante : le dernier modèle du genre de Google a une latence d’environ 2 secondes. NVIDIA propose aussi Parakeet, un modèle ASR très performant en anglais sur GPU davantage pensé pour le traitement à grande échelle que pour la transcription multilingue.