
Alors que les agents IA se rapprochent de la prise d’actions réelles à notre place (envoyer un SMS, acheter en ligne, modifier des paramètres de compte, etc.), Apple a coécrit une nouvelle étude pour évaluer dans quelle mesure ces systèmes comprennent réellement les conséquences de leurs actions. Voici ce qu’ils ont découvert.
Présentée récemment lors de la Conférence ACM sur les Interfaces Utilisateur Intelligentes en Italie, l’étude « From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts » propose un cadre détaillé pour comprendre ce qui peut se passer lorsqu’un agent IA interagit avec une interface mobile.
Ce qui rend cette étude intéressante, c’est qu’elle n’analyse pas seulement si les agents peuvent appuyer sur le bon bouton, mais aussi s’ils sont capables d’anticiper les conséquences de ce qui peut se produire après avoir appuyé, et s’ils doivent poursuivre ou non l’action.
Les chercheurs déclarent : « Bien que des recherches antérieures aient étudié comment les agents IA peuvent naviguer dans les interfaces utilisateur et comprendre leur structure, les effets de leurs actions autonomes – notamment celles qui peuvent être risquées ou irréversibles – restent sous-explorés. Dans ce travail, nous investiguons les impacts et conséquences réels des actions d’interfaces mobiles prises par des agents IA. »
Classification des interactions à risque
L’étude part du constat que la plupart des ensembles de données pour former les agents UI aujourd’hui sont composés d’éléments relativement inoffensifs : naviguer dans un fil d’actualités, ouvrir une application, faire défiler des options. L’étude a donc cherché à aller plus loin.
Les participants recrutés pour l’étude ont utilisé de véritables applications mobiles et noté les actions qui les mettraient mal à l’aise si elles étaient déclenchées par une IA sans leur permission, comme envoyer des messages, changer de mot de passe, modifier des détails de profil ou effectuer des transactions financières.
Ces actions ont alors été classées selon un nouveau cadre qui prend en compte non seulement l’impact immédiat sur l’interface, mais aussi des éléments comme :
- Intention de l’utilisateur : Que cherche l’utilisateur à accomplir ?
- Impact sur l’interface : Est-ce que l’action modifie l’apparence de l’interface ?
- Impact sur l’utilisateur : Y a-t-il un effet sur la confidentialité, les données ou le comportement de l’utilisateur ?
- Réversibilité : Si une erreur survient, peut-elle être annulée facilement ?
- Fréquence : S’agit-il d’une action courante ou rare ?
Ceci a donné un cadre permettant aux chercheurs d’évaluer si les modèles considèrent des aspects comme : « Peut-on annuler cela en un clic ? », « Cela alerte-t-il quelqu’un d’autre ? » ou « Cela laisse-t-il une trace ? », et de prendre ces éléments en compte avant d’agir pour le compte de l’utilisateur.
Test du jugement de l’IA
Une fois les jeux de données construits, l’équipe les a testés sur cinq modèles de langage de grande taille, y compris GPT-4, Google Gemini et le Ferret-UI d’Apple, pour voir à quel point ils pouvaient classer l’impact de chaque action.
Le résultat ? Google Gemini a mieux performé dans les tests dits « zero-shot » (56 % de précision), qui mesurent la capacité d’une IA à gérer des tâches pour lesquelles elle n’a pas explicitement été formée. Pendant ce temps, la version multimodale de GPT-4 était en tête (58 % de précision) dans l’évaluation de l’impact avec des techniques de raisonnement par étapes.