
Apple poursuit ses travaux sur les agents IA capables d’analyser une interface graphique et d’y exécuter des actions. Dernier jalon en date : Ferret‑UI Lite, un modèle conçu pour fonctionner en local, avec seulement 3 milliards de paramètres.
Selon l’étude, cette version « Lite » parvient à égaler, voire dépasser, les performances de modèles concurrents jusqu’à 24 fois plus volumineux sur plusieurs benchmarks dédiés aux agents d’interface.
Du projet Ferret à Ferret‑UI : un modèle pensé pour les écrans
En décembre 2023, une équipe de neuf chercheurs publiait « FERRET: Refer and Ground Anything Anywhere at Any Granularity », présentant un modèle multimodal capable d’associer des requêtes en langage naturel à des zones précises d’une image.
Apple a ensuite élargi cette famille avec Ferretv2, Ferret‑UI et Ferret‑UI 2. Les variantes Ferret‑UI visent un point faible identifié sur les MLLM généralistes : la compréhension des écrans d’interface, souvent plus allongés et remplis de petits éléments (icônes, textes). Pour y répondre, Ferret‑UI introduit notamment une approche « any resolution » destinée à préserver les détails utiles.
Ferret‑UI Lite : un agent GUI local à 3 milliards de paramètres
La nouvelle étude, « Ferret‑UI Lite: Lessons from Building Small On‑Device GUI Agents », part d’un constat : la plupart des agents GUI récents s’appuient sur de grands modèles côté serveur, efficaces pour la planification et le raisonnement, mais trop lourds pour une exécution fluide sur l’appareil.
Ferret‑UI Lite se distingue par un objectif explicite : conserver des capacités compétitives malgré une taille réduite, afin de viser une exécution sur l’appareil. L’étude positionne Ferret‑UI Lite comme une alternative plus légère à Ferret‑UI (13B, d’abord centré sur des captures mobiles à résolution fixe) et à Ferret‑UI 2 (élargi à plusieurs plateformes et à une perception en plus haute résolution).
Principaux leviers techniques mis en avant
- Données d’entraînement réelles et synthétiques issues de plusieurs domaines d’interfaces graphiques.
- Recadrage et zoom dynamiques au moment de l’inférence : le modèle produit une première prédiction, recadre autour de la zone visée, puis réévalue sur cette portion pour gagner en précision.
- Affinage supervisé et apprentissage par renforcement pour améliorer l’exécution des tâches.
La technique de recadrage/zoom en temps réel joue un rôle central : elle aide un modèle compact à compenser ses limites face à un grand nombre de « tokens » visuels, en concentrant l’analyse sur des zones pertinentes.
Génération d’exemples synthétiques : un pipeline multi‑agents
L’étude décrit aussi un système multi‑agents destiné à produire des exemples d’entraînement synthétiques à grande échelle, en interagissant avec des plateformes GUI « vivantes ». Un générateur de tâches propose des objectifs de difficulté croissante, un agent de planification les découpe en étapes, un agent de grounding exécute à l’écran, puis un modèle critique évalue le résultat.
Ce pipeline vise à capturer des situations proches du réel : erreurs, états inattendus, et stratégies de récupération, difficiles à refléter avec des données uniquement annotées à la main.
Benchmarks et limites observées
Fait notable, Ferret‑UI Lite a été entraîné et évalué sur des environnements Android, web et desktop, via des benchmarks comme AndroidWorld et OSWorld, plutôt que sur des interfaces iPhone ou d’autres surfaces Apple utilisées dans les évaluations de Ferret‑UI et Ferret‑UI 2.
Les chercheurs indiquent que le modèle est solide sur des tâches de faible complexité et à horizon court, mais moins performant sur des interactions plus longues et multi‑étapes, un compromis cohérent avec les contraintes d’un modèle local et compact.
Le papier insiste enfin sur l’intérêt d’un agent exécuté en local : l’interaction avec les interfaces peut s’effectuer sans traitement côté cloud, ce qui réduit l’exposition des données à des serveurs distants.