
Apple poursuit ses travaux sur l’IA générative appliquée à la création d’interfaces. Un nouveau papier détaille une méthode d’entraînement qui s’appuie sur des retours de designers, avec pour objectif d’améliorer la qualité visuelle et la cohérence des UI produites par les modèles.
Contexte : après UICoder, l’enjeu de la qualité de design
Il y a quelques mois, une équipe de recherche d’Apple avait présenté UICoder, une famille de modèles open source visant surtout à générer du code d’interface « fonctionnel » : du code qui compile et qui correspond globalement au prompt, davantage qu’une interface jugée « bien conçue » (arXiv).
La nouvelle étude : apprendre à partir du travail réel des designers
Le nouveau papier, intitulé Improving User Interface Generation Models from Designer Feedback, est publié sur le site de recherche d’Apple (machinelearning.apple.com). Les auteurs estiment que les approches classiques de RLHF (Reinforcement Learning from Human Feedback) sont mal adaptées au design d’interfaces, car elles s’alignent peu sur les méthodes de travail des designers et « ignorent la richesse des justifications » utilisées pour critiquer et améliorer une UI.
Le protocole proposé privilégie donc des retours « natifs » du métier : commentaires, croquis et modifications directes. Les interfaces générées par le modèle sont d’abord critiquées et améliorées par des designers professionnels, puis les changements avant/après sont convertis en données afin d’affiner l’entraînement.
Dispositif expérimental
- 21 designers ont participé, avec des niveaux d’expérience allant de 2 à plus de 30 ans, issus de domaines comme le UI/UX, le product design ou le service design.
- 1 460 annotations ont été collectées, puis transformées en paires de préférences opposant l’UI d’origine et la version améliorée par les designers.
- Un reward model a été entraîné à partir de deux entrées : une image rendue (capture d’écran de l’UI) et une description en langage naturel. Le score produit est calibré pour favoriser les designs jugés meilleurs. Pour attribuer un score au code HTML, l’étude passe par un rendu automatisé en captures d’écran via un navigateur.
Côté modèles, Apple utilise Qwen2.5-Coder comme base principale de génération d’UI, puis applique le même reward model entraîné sur les retours de designers à d’autres variantes Qwen, plus petites et plus récentes, afin d’évaluer la généralisation de l’approche. Les auteurs notent que le pipeline ressemble à une chaîne RLHF traditionnelle, à une différence clé : le signal d’apprentissage provient d’artefacts de design (croquis, révisions), et non d’un simple like/dislike ou d’un classement.
Résultats : mieux que le ranking, avec un point de vigilance
Selon les chercheurs, les modèles entraînés sur des retours « natifs » (notamment croquis et révisions directes) produisent des interfaces de meilleure qualité que les modèles de base, ainsi que que des versions entraînées uniquement via des notations ou des classements.
- Le meilleur modèle reporté, Qwen3-Coder affiné avec un reward model fondé sur des croquis, est indiqué comme surpassant GPT-5 dans leurs évaluations.
- Ce résultat serait obtenu à partir de 181 annotations de croquis, soulignant l’impact d’un volume limité de retours experts, lorsque ceux-ci sont très informatifs.
La limite mise en avant concerne la subjectivité du design : plusieurs solutions peuvent être valides, ce qui augmente la variance des jugements. Dans l’étude, lorsque l’équipe de recherche a évalué indépendamment les mêmes paires d’UI classées par les designers, l’accord n’a atteint que 49,2 %. En revanche, l’accord monte quand le feedback devient plus concret : 63,6 % pour les croquis et 76,1 % pour les modifications directes. Autrement dit, montrer précisément quoi changer réduit l’ambiguïté par rapport à un simple choix entre deux propositions.
Le papier complet, avec les détails techniques, le matériel d’entraînement et des exemples supplémentaires d’interfaces, est disponible sur machinelearning.apple.com.