
Durant la WWDC25, Apple a annoncé la nouvelle version de ses modèles de base, à la fois locaux et basés sur le cloud. Ils ont maintenant publié un rapport technique qui décrit comment ces modèles ont été entraînés, optimisés et évalués, révélant quelques détails véritablement intéressants en coulisses.
Dans un document complet intitulé « Apple Intelligence Foundation Language Models – Tech Report 2025« , l’entreprise explore de nombreux aspects des nouveaux modèles, y compris leur architecture, les sources de données, l’entraînement préalable et postérieur, l’utilisation des outils de développement, les optimisations et les référentiels.
Le modèle local divisé en deux blocs
Le modèle local d’Apple, utilisé par les développeurs, comprend environ 3 milliards de paramètres. Désormais, Apple a précisé que ce modèle est divisé en deux blocs :
« Le Bloc 1 contient 62,5 % des couches de transformateurs totales, tandis que le Bloc 2 contient les 37,5 % restants, mais les projections de clés et de valeurs ont été supprimées. »
En pratique, cela signifie que le modèle local exige 37,5 % de mémoire en moins et le temps nécessaire pour produire le premier jet est réduit d’autant. Apple a structuré cette division de façon à préserver les performances globales et la qualité de sortie du modèle.
Il y a quelques années, Apple avait examiné l’idée d’échanger des parties d’un modèle de langage entre la RAM et le stockage flash pour intégrer un modèle local plus grand. Bien qu’Apple ait opté pour une autre voie, leurs expérimentations pour améliorer la performance locale sur des appareils limités en mémoire sont notables.
Architecture innovante pour le modèle basé sur le cloud
Pour son modèle serveur, Apple a conçu une architecture sur mesure pour sa plateforme Private Cloud Compute. Baptisée Parallel-Track Mixture-of-Experts (PT-MoE), elle fonctionne de manière intrigante.
En bref (et au risque de simplifier excessivement), Mixture of Experts divise un énorme modèle d’IA en sous-réseaux plus petits, ou experts, activés uniquement lorsque la tâche concerne leur champ d’expertise. Cela permet au modèle d’être plus réactif et précis.
Apple a créé un nouveau type de Transformateur appelé Parallel Track Transformer en le combinant avec les couches MoE. Les Transformateurs traditionnels traitent les jetons séquentiellement mais dans le modèle d’Apple, ils sont répartis sur plusieurs pistes parallèles, chacune ayant ses propres experts locaux. Cela évite les goulets d’étranglement causés par une coordination sur tout le système.
Représentation multilingue augmentée de 275 %
Apple a élargi le support linguistique, augmentant la part de données multilingues utilisées pendant l’entraînement de 8 % à 30 %, y compris des contenus organiques et synthétiques. Le tokenizer du modèle a également été amélioré, passant de 100 000 à 150 000 tokens.
Cela a permis des « gains significatifs » en performance sur les référentiels non anglophones, surtout après l’affinage par apprentissage par renforcement, et a impacté positivement les outils d’écriture dans les langues supportées.
Sources des données d’entraînement
La majorité des données proviennent de websites publics via Applebot, tout en respectant robots.txt. Les données licenciées et synthétiques ont également complété ces sources, avec une collecte visuelle importante de plus de 10 milliards de paires image-légende.