
Des chercheurs ont documenté une vulnérabilité désormais corrigée permettant de contourner certaines restrictions d’Apple Intelligence et de pousser le modèle de langage exécuté sur l’appareil à suivre des instructions contrôlées par un attaquant.
Les détails figurent dans deux billets publiés sur le blog de la RSA Conference : Is That a Bad Apple in Your Pocket? We Used Prompt Injection to Hijack Apple Intelligence et Rotten Apples: The Technical Details of RSAC’s Successful Apple Intelligence Prompt Injection Attack.
Un contournement en deux temps
Les chercheurs expliquent avoir combiné deux techniques pour, d’une part, tromper les filtres d’entrée et de sortie et, d’autre part, amener le modèle à ignorer ses consignes de sécurité. Apple ne publiant pas l’architecture exacte de la chaîne de filtrage, l’analyse repose sur un scénario jugé le plus probable.
Dans cette hypothèse, une requête transite d’abord par un filtre d’entrée chargé de bloquer le contenu dangereux. Si la requête passe, elle est transmise au modèle local, puis la réponse est contrôlée par un filtre de sortie, susceptible de bloquer le résultat si du contenu problématique est détecté.
La méthode utilisée
- Chaîne Unicode pour dérouter les filtres : le texte jugé nuisible est écrit à l’envers, puis rendu lisible à l’écran via le caractère Unicode RIGHT-TO-LEFT OVERRIDE. Dans l’entrée et la sortie « brutes », inspectées par les filtres, la chaîne reste inversée.
- « Neural Exec » pour imposer de nouvelles instructions : cette seconde technique sert à supplanter les directives du modèle et à lui faire exécuter une instruction formulée par l’attaquant, tout en conservant une apparence de requête bénigne.
Selon les auteurs, la composante Unicode permet de franchir les filtres d’entrée et de sortie, tandis que « Neural Exec » provoque le comportement indésirable du modèle.
Résultats et correctifs
Pour évaluer l’attaque, les chercheurs ont constitué trois ensembles de contenus (prompts système, chaînes nuisibles, textes « honnêtes » issus de Wikipedia), puis ont généré 100 prompts aléatoires. Le taux de réussite annoncé atteint 76 %.
La vulnérabilité a été signalée à Apple en octobre 2025. Les chercheurs indiquent qu’Apple a depuis renforcé les systèmes concernés, avec un déploiement des protections dans iOS 26.4 et macOS 26.4 (RSAC).