Apple Intelligence : une attaque par prompt injection a contourné les garde-fous du modèle local

Des chercheurs ont documenté une vulnérabilité désormais corrigée permettant de contourner certaines restrictions d’Apple Intelligence et de pousser le modèle de langage exécuté sur l’appareil à suivre des instructions contrôlées par un attaquant.

Les détails figurent dans deux billets publiés sur le blog de la RSA Conference : Is That a Bad Apple in Your Pocket? We Used Prompt Injection to Hijack Apple Intelligence et Rotten Apples: The Technical Details of RSAC’s Successful Apple Intelligence Prompt Injection Attack.

Un contournement en deux temps

Les chercheurs expliquent avoir combiné deux techniques pour, d’une part, tromper les filtres d’entrée et de sortie et, d’autre part, amener le modèle à ignorer ses consignes de sécurité. Apple ne publiant pas l’architecture exacte de la chaîne de filtrage, l’analyse repose sur un scénario jugé le plus probable.

Dans cette hypothèse, une requête transite d’abord par un filtre d’entrée chargé de bloquer le contenu dangereux. Si la requête passe, elle est transmise au modèle local, puis la réponse est contrôlée par un filtre de sortie, susceptible de bloquer le résultat si du contenu problématique est détecté.

La méthode utilisée

Chaîne Unicode pour dérouter les filtres : le texte jugé nuisible est écrit à l’envers, puis rendu lisible à l’écran via le caractère Unicode RIGHT-TO-LEFT OVERRIDE. Dans l’entrée et la sortie « brutes », inspectées par les filtres, la chaîne reste inversée.
« Neural Exec » pour imposer de nouvelles instructions : cette seconde technique sert à supplanter les directives du modèle et à lui faire exécuter une instruction formulée par l’attaquant, tout en conservant une apparence de requête bénigne.

Selon les auteurs, la composante Unicode permet de franchir les filtres d’entrée et de sortie, tandis que « Neural Exec » provoque le comportement indésirable du modèle.

Résultats et correctifs

Pour évaluer l’attaque, les chercheurs ont constitué trois ensembles de contenus (prompts système, chaînes nuisibles, textes « honnêtes » issus de Wikipedia), puis ont généré 100 prompts aléatoires. Le taux de réussite annoncé atteint 76 %.

La vulnérabilité a été signalée à Apple en octobre 2025. Les chercheurs indiquent qu’Apple a depuis renforcé les systèmes concernés, avec un déploiement des protections dans iOS 26.4 et macOS 26.4 (RSAC).

Apple Intelligence : une attaque par prompt injection a contourné les garde-fous du modèle local

Un contournement en deux temps

La méthode utilisée

Résultats et correctifs

Icon Composer 2 et SF Symbols 8 : Apple publie les bêtas pour iOS 27 et macOS 27

Les prochains casques Beats refont surface, avec un design potentiellement modulable

iOS 27 : Localiser permet de masquer sa position sans alerter les contacts

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Intelligence : une attaque par prompt injection a contourné les garde-fous du modèle local

Un contournement en deux temps

La méthode utilisée

Résultats et correctifs

Related Posts

Icon Composer 2 et SF Symbols 8 : Apple publie les bêtas pour iOS 27 et macOS 27

Les prochains casques Beats refont surface, avec un design potentiellement modulable

iOS 27 : Localiser permet de masquer sa position sans alerter les contacts

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2