
L’une des annonces phares de la WWDC de cette année est la possibilité pour les développeurs tiers d’accéder directement aux modèles d’IA d’Apple grâce au nouveau cadre Foundation Models. Mais comment ces modèles se comparent-ils face à la concurrence actuelle ?
Avec ce cadre, les développeurs peuvent désormais construire sur la même infrastructure d’IA embarquée utilisée par les applications natives d’Apple. Cela signifie que les développeurs peuvent intégrer des fonctionnalités d’IA pour résumer des documents, extraire des informations clés de textes ou générer du contenu structuré, entièrement hors ligne, sans frais d’API.
Compétitifs là où ça compte
Selon les évaluations humaines d’Apple, les modèles sont solides, surtout quand on considère l’équilibre entre taille, rapidité et efficacité. Lors des tests d’Apple, son modèle embarqué de ~3 milliards de paramètres a surpassé des modèles similaires comme l’InternVL-2.5 et le Qwen-2.5-VL-3B dans les tâches d’image, remportant respectivement 46% et 50% des invites.
En ce qui concerne le texte, il a tenu tête à des modèles plus grands comme le Gemma-3-4B, et a même dépassé ces derniers dans certaines évaluations internationales anglaises et multilingues (portugais, français, japonais, etc.). En d’autres termes, les nouveaux modèles locaux d’Apple semblent prêts à offrir des résultats cohérents pour de nombreuses utilisations réelles sans avoir recours au cloud.
Le côté « gratuit et hors ligne » revêt une importance capitale
La véritable innovation ici est que les modèles d’Apple sont intégrés. Avec le cadre Foundation Models, plus besoin d’alourdir les applications avec de volumineux modèles linguistiques pour le traitement hors ligne. Résultat ? Une expérience utilisateur plus privée et des frais d’API inexistants pour les développeurs.
Apple optimise les modèles pour des sorties structurées à l’aide d’un système de « génération guidée » natif de Swift, permettant aux développeurs de canaliser directement les réponses des modèles dans la logique de l’application. Pour les applications dans l’éducation, la productivité ou la communication, cela pourrait bien être révolutionnaire, offrant les bénéfices des modèles linguistiques majeurs sans les compromis liés à la latence, au coût ou à la confidentialité.