
Lors de la keynote de la WWDC26, Apple a présenté la troisième génération d’Apple Foundation Models (AFM). La famille comprend cinq modèles, répartis entre exécution sur l’appareil, cloud Apple, et une variante hébergée sur l’infrastructure Google Cloud avec des GPU NVIDIA.
Contexte : de l’IA sur l’appareil à Private Cloud Compute
En 2024, Apple avait introduit une première génération de modèles, avec un modèle de langage local d’environ 3 milliards de paramètres et un modèle serveur plus large, accessible via Private Cloud Compute (Apple Machine Learning Research : Introducing Apple Foundation Models).
Private Cloud Compute visait à offrir des capacités d’IA côté serveur tout en conservant des garanties de confidentialité comparables au traitement sur l’appareil (Apple Security : Private Cloud Compute). L’architecture reposait alors sur des centres de données Apple et des serveurs Apple silicon, avec des mécanismes permettant une vérification indépendante de certains engagements de sécurité.
Cinq modèles, trois niveaux d’exécution
La troisième génération d’AFM se décline en cinq modèles. Deux sont conçus pour fonctionner sur l’appareil, trois côté serveur. Le modèle d’image porte l’acronyme ADM, où le « D » renvoie à la diffusion.
- AFM 3 Core : évolution du modèle dense de 3 milliards de paramètres, annoncée comme un gain de qualité.
- AFM 3 Core Advanced : modèle local le plus puissant. Multimodal nativement (audio, etc.), orienté vers des fonctions comme des voix plus expressives et une dictée plus précise. Il s’appuie sur une architecture parcimonieuse.
- AFM 3 Cloud : modèle serveur principal, optimisé pour la vitesse et l’efficacité.
- ADM 3 Cloud (Image) : génération et édition d’images, à la base de nouveaux outils de retouche et d’Image Playground.
- AFM 3 Cloud Pro : modèle serveur le plus avancé, destiné aux usages les plus exigeants (usage d’outils « agentiques », raisonnement complexe).
Ce qui change : un gros modèle local… et un cloud étendu à Google
Deux annonces concentrent l’essentiel des enjeux techniques : AFM 3 Core Advanced pour l’IA sur l’appareil, et AFM 3 Cloud Pro pour l’IA serveur.
AFM 3 Core Advanced : 20 milliards de paramètres, en local
Apple indique qu’AFM 3 Core Advanced atteint 20 milliards de paramètres tout en restant exécutable sur l’appareil, un positionnement inhabituel pour des modèles destinés au grand public. Pour y parvenir, Apple met en avant une architecture parcimonieuse : le modèle n’active que 1 à 4 milliards de paramètres selon la requête, plutôt que de mobiliser l’ensemble des 20 milliards à chaque inférence.
Apple rapproche ce comportement d’approches de type « activation sélective », en s’appuyant sur des travaux décrits dans l’étude Instruction-Following Pruning for Large Language Models (Apple Machine Learning Research).
AFM 3 Cloud Pro : exécution sur GPU NVIDIA dans Google Cloud
AFM 3 Cloud Pro est le seul des cinq modèles explicitement décrit comme n’étant pas construit pour tourner sur Apple silicon. Il s’exécute sur des GPU NVIDIA hébergés dans Google Cloud. Apple explique avoir étendu, pour la première fois, son architecture Private Cloud Compute à une infrastructure tierce tout en affirmant maintenir ses protections de sécurité et de confidentialité (Apple Security : Expanding PCC).
Dans ce billet, Apple détaille notamment une approche qui dépasse le seul « confidential computing » : prise en compte de l’ensemble de la pile (du firmware aux applications) comme base de confiance, registre append-only vérifiable cryptographiquement pour l’inventaire matériel Google Cloud participant à PCC, et isolation en couches de composants clés comme l’analyse réseau, la réutilisation contrôlée de logiciels d’inférence et la séparation des clés attestées dans une VM confidentielle dédiée (Apple Security : Expanding PCC).
Entraînement et spécialisation : ce qu’Apple revendique
Apple affirme que les cinq modèles partagent une base commune avant spécialisation selon leurs architectures et cas d’usage, avec des capacités multimodales (audio, compréhension d’image, raisonnement à long contexte, génération visuelle) (Apple Machine Learning Research : Introducing third generation of Apple Foundation Models).
Pour l’entraînement, Apple décrit un mélange de données : informations publiques, données sous licence ou achetées, données open source, données issues d’études dédiées et données synthétiques. Apple précise que le processus d’entraînement n’inclut pas les données ou interactions des utilisateurs, et que les éditeurs web disposent d’un mécanisme d’exclusion (Apple Machine Learning Research : Introducing third generation of Apple Foundation Models).
Évaluations : progrès revendiqués en texte, image et dictée
Apple indique avoir mené des évaluations humaines étendues, avec des critères comme le suivi d’instructions, la véracité, la présentation et la compréhension d’image. Les comparaisons sont réalisées face aux générations précédentes lorsque cela s’applique (Apple Machine Learning Research : Introducing third generation of Apple Foundation Models).
Pour la dictée, Apple rapporte un avantage de préférence pour AFM 3 Core Advanced face au système de dictée déjà en production, avec une amélioration qui s’étend aux dimensions de formatage et de compréhension (Apple Machine Learning Research : Introducing third generation of Apple Foundation Models).