↩ Accueil

Vue normale

Reçu aujourd’hui — 22 février 2026 1.2 🖥️ Tech. Autres sites

Apple lance Ferret-UI Lite, un agent UI mobile local qui rivalise avec des géants

Par : Wael.K
21 février 2026 à 12:21

Apple présente « Ferret-UI Lite », un modèle d’agent multimodal taillé pour l’exécution locale sur mobile. Avec 3 milliards de paramètres seulement, ce MLLM est conçu pour comprendre et manipuler des interfaces graphiques complexes sur iPhone, tout en se mesurant à des modèles serveur 24 fois plus grands sur plusieurs benchmarks.

Interface utilisateur de l'application Ferret-UI Lite sur un iPhone 17 avec tâches élémentaires et avancées.

Un petit modèle optimisé pour lire l’UI

Le point dur des assistants génériques reste la lecture de micro-éléments d’UI: icônes minuscules, libellés serrés, badges et états. Ferret-UI Lite s’appuie sur un procédé d’« inference-time cropping » qui segmente et zoome dynamiquement les zones d’intérêt après une première passe grossière, puis relit ces régions en haute résolution. Le modèle limite ainsi le flux d’images à traiter sans perdre le détail critique, ce qui réduit la charge tout en améliorant la précision des actions.

Exemple d'utilisation de Ferret-UI avec un furet et une tâche de préparation de sandwich.

Pour l’entraînement, l’équipe a bâti une chaîne de génération synthétique avec quatre rôles complémentaires: un générateur de tâches, un planificateur, un exécuteur et un critique. Le système simule des sessions d’usage réelles, avec erreurs et imprévus (clics inopérants, pop-ups parasites), afin de forger des démonstrations robustes bien au-delà de jeux d’étiquettes « propres ». Résultat: l’agent réussit particulièrement bien les séquences courtes et les opérations UI de base; les longues chaînes d’actions restent un axe d’amélioration.

Confidentialité et latence

Le modèle fonctionne intégralement en local, sans envoi de captures d’écran vers le cloud. Outre l’avantage évident en matière de confidentialité, l’exécution sur appareil évite les allers-retours réseau et améliore la réactivité pour les automatisations d’apps et la navigation contextuelle à l’écran.

Performances et portée

Sur les benchmarks publiés, Ferret-UI Lite égale ou dépasse des modèles serveur autrement plus massifs pour la compréhension d’écrans et l’enchaînement d’actions simples. Le différentiel tient au pipeline de recadrage à l’inférence et à la qualité de la synthèse de données orientée « erreurs du réel », deux leviers qui maximisent l’utilité d’un petit réseau sur un GPU mobile.

Illustration de Ferret-UI Lite montrant un agent GUI sur différentes plateformes.

Au-delà de la démonstration, l’intérêt industriel est clair: un agent d’UI fiable en local ouvre la voie à des automatisations natives d’apps, de l’accessibilité avancée aux scénarios de test embarqués, sans dépendre d’un back-end. Si Apple parvient à étendre la gestion des tâches longues et la généralisation à des UX plus hétérogènes, on tient une brique clé pour des assistants contextuels réellement utiles à l’échelle de l’OS.

Source : ITHome

❌