
Selon Bloomberg, Apple et Google finaliseraient un accord annuel d’environ 1 milliard de dollars pour utiliser une déclinaison de Gemini afin d’alimenter la nouvelle version de Siri dès l’année prochaine. Au‑delà du coût, l’architecture du modèle — annoncé à 1,2 billion de paramètres — sera déterminante pour les performances et la latence.
1,2 billion de paramètres : de quoi parle‑t‑on ?
Un modèle de cette taille reste très ambitieux. La comparaison directe avec les derniers modèles de pointe est toutefois difficile, les laboratoires fermés (OpenAI, Anthropic, Google) ne communiquant plus leurs nombres de paramètres. Les estimations autour de GPT‑5, Gemini 2.5 Pro ou Claude Sonnet 4.5 varient fortement, rendant toute hiérarchie chiffrée incertaine.
Pourquoi un modèle en mixture‑of‑experts (MoE) ?
Les grands modèles récents adoptent souvent une architecture MoE, qui répartit le réseau en « experts » spécialisés. Pour chaque entrée, seul un petit sous‑ensemble d’experts est activé, ce qui réduit le calcul nécessaire tout en conservant une grande capacité.
- Partition en experts spécialisés, pilotés par un routeur.
- Activation de 2 à 4 experts par token, selon la tâche.
- Exemple typique : 32 experts et 1,2 billion de paramètres au total, mais seulement 75 à 150 milliards réellement activés à un instant donné.
- Bénéfices : latence et coûts d’inférence nettement réduits, avec une capacité globale élevée.
Hébergement et confidentialité
Le modèle serait exécuté sur l’infrastructure Private Cloud Compute d’Apple. Google n’aurait pas accès aux données ni aux paramètres opérés côté serveur, ce qui renforce la confidentialité du traitement.
Aucune information publique ne confirme l’architecture finale du modèle fourni à Apple. À cette échelle, l’approche MoE est toutefois celle qui permet aujourd’hui d’exploiter des modèles massifs avec des coûts et des temps de réponse maîtrisés.