Mémoire cash - 14 ans après, WipEout 2048 humilie encore la concurrence des jeux de course





© HONA GHAZZA

© Laurence Geai /MYOP pour « Le Monde »

© CHANDAN KHANNA / AFP

© SERGENT NICHOLAS J. DE LA PENA / DÉPARTEMENT DE LA DÉFENSE VIA AFP







© HONA GHAZZA

© Laurence Geai /MYOP pour « Le Monde »

© CHANDAN KHANNA / AFP

© SERGENT NICHOLAS J. DE LA PENA / DÉPARTEMENT DE LA DÉFENSE VIA AFP
![]()
Apple présente « Ferret-UI Lite », un modèle d’agent multimodal taillé pour l’exécution locale sur mobile. Avec 3 milliards de paramètres seulement, ce MLLM est conçu pour comprendre et manipuler des interfaces graphiques complexes sur iPhone, tout en se mesurant à des modèles serveur 24 fois plus grands sur plusieurs benchmarks.

Le point dur des assistants génériques reste la lecture de micro-éléments d’UI: icônes minuscules, libellés serrés, badges et états. Ferret-UI Lite s’appuie sur un procédé d’« inference-time cropping » qui segmente et zoome dynamiquement les zones d’intérêt après une première passe grossière, puis relit ces régions en haute résolution. Le modèle limite ainsi le flux d’images à traiter sans perdre le détail critique, ce qui réduit la charge tout en améliorant la précision des actions.

Pour l’entraînement, l’équipe a bâti une chaîne de génération synthétique avec quatre rôles complémentaires: un générateur de tâches, un planificateur, un exécuteur et un critique. Le système simule des sessions d’usage réelles, avec erreurs et imprévus (clics inopérants, pop-ups parasites), afin de forger des démonstrations robustes bien au-delà de jeux d’étiquettes « propres ». Résultat: l’agent réussit particulièrement bien les séquences courtes et les opérations UI de base; les longues chaînes d’actions restent un axe d’amélioration.
Le modèle fonctionne intégralement en local, sans envoi de captures d’écran vers le cloud. Outre l’avantage évident en matière de confidentialité, l’exécution sur appareil évite les allers-retours réseau et améliore la réactivité pour les automatisations d’apps et la navigation contextuelle à l’écran.
Sur les benchmarks publiés, Ferret-UI Lite égale ou dépasse des modèles serveur autrement plus massifs pour la compréhension d’écrans et l’enchaînement d’actions simples. Le différentiel tient au pipeline de recadrage à l’inférence et à la qualité de la synthèse de données orientée « erreurs du réel », deux leviers qui maximisent l’utilité d’un petit réseau sur un GPU mobile.

Au-delà de la démonstration, l’intérêt industriel est clair: un agent d’UI fiable en local ouvre la voie à des automatisations natives d’apps, de l’accessibilité avancée aux scénarios de test embarqués, sans dépendre d’un back-end. Si Apple parvient à étendre la gestion des tâches longues et la généralisation à des UX plus hétérogènes, on tient une brique clé pour des assistants contextuels réellement utiles à l’échelle de l’OS.
Source : ITHome

© OLIVIER CHASSIGNOLE / AFP

© SAI AUNG MAIN/AFP

© Thilo Schmuelgen / REUTERS

© Stringer / REUTERS

© - / AFP

© JESUS ALCAZAR / AFP