☕️ Mistral sort des modèles pour de la traduction vocale vers le texte instantanée

5 février 2026 à 09:03

La startup française d’IA générative vient de sortir la version 2 de sa famille Voxtral Transcribe, des modèles pour faire de la traduction vocale vers le texte (speech-to-text).

Dans son annonce, Mistral mentionne en fait deux modèles :

l’un en open source, Voxtral Mini 4B Realtime 2602, sous licence Apache 2.0, et via son API à 0,006 $ par minute ;
l’autre, Voxtral Transcribe 2, est disponible seulement via API à 0,003 $ par minute et sur les services de Mistral comme Mistral Studio et Le Chat.

Voxtral Realtime est « conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, permettant l’utilisation d’agents vocaux et d’applications en temps réel », explique l’entreprise.

Quant à Voxtral Transcribe 2, il est plus fait pour transcrire des fichiers audio par lots.

Les deux modèles sont utilisables pour la traduction en treize langues : anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien et néerlandais.

Pierre Stock, le responsable R&D chez Mistral, met en avant la taille relativement petite des modèles de son entreprise comparée à ceux des leaders américains. «Franchement, trop de GPU vous rend paresseux », affirme-t-il à Wired. « Vous testez aveuglément beaucoup de choses, mais vous ne réfléchissez pas à la voie la plus courte vers le succès ». Cette taille des modèles de Mistral peut permettre de bâtir des outils de traduction qui s’exécutent directement sur les smartphones.

L’entreprise donne plus d’explications pour l’utilisation de ses modèles dans sa documentation.

Mistral lance sa nouvelle famille Mistral 3 et vante ses petits modèles