Siri et Gemini : l'architecture MoE au service des performances

Selon Bloomberg, Apple et Google finaliseraient un accord annuel d’environ 1 milliard de dollars pour utiliser une déclinaison de Gemini afin d’alimenter la nouvelle version de Siri dès l’année prochaine. Au‑delà du coût, l’architecture du modèle — annoncé à 1,2 billion de paramètres — sera déterminante pour les performances et la latence.

1,2 billion de paramètres : de quoi parle‑t‑on ?

Un modèle de cette taille reste très ambitieux. La comparaison directe avec les derniers modèles de pointe est toutefois difficile, les laboratoires fermés (OpenAI, Anthropic, Google) ne communiquant plus leurs nombres de paramètres. Les estimations autour de GPT‑5, Gemini 2.5 Pro ou Claude Sonnet 4.5 varient fortement, rendant toute hiérarchie chiffrée incertaine.

Pourquoi un modèle en mixture‑of‑experts (MoE) ?

Les grands modèles récents adoptent souvent une architecture MoE, qui répartit le réseau en « experts » spécialisés. Pour chaque entrée, seul un petit sous‑ensemble d’experts est activé, ce qui réduit le calcul nécessaire tout en conservant une grande capacité.

Partition en experts spécialisés, pilotés par un routeur.
Activation de 2 à 4 experts par token, selon la tâche.
Exemple typique : 32 experts et 1,2 billion de paramètres au total, mais seulement 75 à 150 milliards réellement activés à un instant donné.
Bénéfices : latence et coûts d’inférence nettement réduits, avec une capacité globale élevée.

Hébergement et confidentialité

Le modèle serait exécuté sur l’infrastructure Private Cloud Compute d’Apple. Google n’aurait pas accès aux données ni aux paramètres opérés côté serveur, ce qui renforce la confidentialité du traitement.

Aucune information publique ne confirme l’architecture finale du modèle fourni à Apple. À cette échelle, l’approche MoE est toutefois celle qui permet aujourd’hui d’exploiter des modèles massifs avec des coûts et des temps de réponse maîtrisés.

Siri avec Gemini : une architecture MoE pour gérer 1,2 billion de paramètres

1,2 billion de paramètres : de quoi parle‑t‑on ?

Pourquoi un modèle en mixture‑of‑experts (MoE) ?

Hébergement et confidentialité

Après les résultats du T2 2026, l’action Apple progresse légèrement hors séance

Apple accélère sur l’IA et signe un record historique de dépenses en R&D

Apple réclame le remboursement de droits de douane et promet de réinvestir aux États-Unis

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

Siri avec Gemini : une architecture MoE pour gérer 1,2 billion de paramètres

1,2 billion de paramètres : de quoi parle‑t‑on ?

Pourquoi un modèle en mixture‑of‑experts (MoE) ?

Hébergement et confidentialité

Related Posts

Après les résultats du T2 2026, l’action Apple progresse légèrement hors séance

Apple accélère sur l’IA et signe un record historique de dépenses en R&D

Apple réclame le remboursement de droits de douane et promet de réinvestir aux États-Unis

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés