
Photo : amical robot blanc
Un nouvel horizon se dessine avec l’étude financée par Apple, en collaboration avec l’Université d’Aalto en Finlande. L’approche nommée ILuvUI, un modèle de vision-langage, est entraînée pour comprendre les interfaces d’applications mobiles à partir de captures d’écran et de conversations en langage naturel. Mais comment cela fonctionne-t-il réellement ?
ILuvUI : l’IA qui dépasse son modèle d’origine
Dans le document ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations, l’équipe s’attaque à un défi de longue date en interaction homme-machine : enseigner aux modèles d’IA à raisonner sur les interfaces utilisateurs avec une vision aussi bien visuelle que sémantique.
« Comprendre et automatiser les actions sur les UIs est un défi déterminant car les éléments d’une interface, comme les listes, cases à cocher et champs de texte, encapsulent plusieurs niveaux d’information au-delà de leur simple interactivité. »
En général, les modèles de vision-langage sont formés sur des images naturelles, comme des animaux ou des panneaux, et montrent des lacunes sur des environnements plus structurés comme les interfaces d’applications.
« Fusionner l’information visuelle avec le texte est crucial pour comprendre les UIs, imitant la manière dont de nombreux humains interagissent avec le monde. »
En s’appuyant sur l’initiation du modèle open-source LLaVA, les chercheurs ont finement ajusté sa méthode de formation pour spécialiser ce dernier dans le domaine des interfaces.
Ils l’ont entraîné sur des paires texte-image générées synthétiquement en suivant quelques exemples « en or ». Le jeu de données final inclut des interactions sous forme de questions-réponses, des descriptions détaillées d’écran, des résultats d’action prédits, et même des plans multi-étapes.
Une fois formé, le modèle final, ILuvUI, a surpassé le LLaVA original aussi bien dans les benchmarks machines qu’aux tests sur les préférences humaines.
Qu’apporte cette IA aux utilisateurs ?
Selon les chercheurs d’Apple, cette approche pourrait s’avérer précieuse pour l’accessibilité ainsi que pour les tests automatisés d’interfaces utilisateur. Bien que l’IA repose encore sur des composants ouverts, des travaux futurs pourraient s’orienter vers des encodeurs d’images plus puissants, une meilleure gestion des résolutions et des formats de sortie compatibles avec les cadres d’UI existants, comme JSON.
En combinant cela avec des recherches récentes sur la capacité des modèles d’IA à non seulement comprendre, mais anticiper les conséquences des actions in-app, on peut s’attendre à des avancées intrigantes, surtout pour ceux qui souhaitent automatiser davantage leurs flux de travail dans l’interface utilisateur.