Phi-4-Reasoning-Vision-15B : modèle multimodal open source orienté agents
Microsoft dévoile Phi-4-Reasoning-Vision-15B, un modèle open source de 15 milliards de paramètres orienté vision et raisonnement. Positionné dans la famille Phi-4, il combine une perception visuelle haute résolution avec un mécanisme de raisonnement sélectif, capable d’alterner entre une sortie directe faible latence et une chaîne de pensée multi‑étapes quand la tâche l’exige.

L’intérêt n’est pas la détection d’objets en tant que telle, mais la structuration de l’information visuelle pour l’exploiter dans un contexte textuel précis. Le modèle ingère une image et un prompt, reconstruit la relation entre les éléments, puis produit une conclusion actionnable. Concrètement, cela couvre aussi bien l’analyse de graphiques que l’automatisation d’interfaces.
Le cœur du design repose sur un comportement de raisonnement hybride. Sur des tâches d’OCR, de localisation d’éléments ou d’extraction simple, Phi-4-Reasoning-Vision-15B répond immédiatement pour réduire la latence. Face à des problèmes mathématiques, des consignes logiques ou des scénarios ambigus, il active une chaîne de raisonnement structurée avec plusieurs pas d’inférence.
Ciblage des interfaces et agents logiciels

Microsoft met en avant l’usage avec des agents de bureau: le modèle reçoit une capture d’écran et une instruction en langage naturel, puis retourne les coordonnées normalisées de la zone cliquable à l’écran. Un orchestrateur peut ensuite effectuer clics, défilement ou navigation, ouvrant la voie à des workflows d’automatisation combinant vision, langage et actions.
Au‑delà des GUI, le même schéma s’applique à la lecture de documents structurés, à l’interprétation de diagrammes et à l’exécution de tâches multimodales qui exigent à la fois une lecture fine des pixels et une décision contextualisée. Microsoft publie le modèle sur Hugging Face, avec l’intention affichée d’en faire une brique standard pour des applications “raisonnantes” compactes.
Ouverture et disponibilité
Le dépôt Hugging Face est accessible à l’adresse suivante : microsoft/Phi-4-reasoning-vision-15B. Le positionnement « petit modèle multimodal » vise des intégrations plus légères que les LMM géants, notamment pour des services à latence contrainte et des agents embarqués.

Si les benchmarks fournis soulignent des gains sur des tâches clés en raisonnement visuel, l’enjeu réel se jouera côté produits: la bascule dynamique entre sortie directe et chaîne de pensée peut réduire sensiblement le coût et le temps de réponse dans des agents pilotant des écrans, une fonction encore rare dans l’écosystème open source et qui pourrait accélérer la standardisation d’outils d’automatisation multimodaux.
Source : ITHome