M5 vs M4 : Apple révèle des LLM locaux jusqu'à 27 % plus rapides

Apple détaille, dans un article de recherche, des gains nets pour l’inférence locale de modèles de langage avec la puce M5 par rapport à la M4, en s’appuyant sur le framework MLX (Machine Learning Research).

Contexte MLX

MLX est un framework open source optimisé pour Apple silicon, conçu pour l’apprentissage automatique et le calcul scientifique, avec une API proche de NumPy. Il exploite la mémoire unifiée d’Apple silicon et permet d’exécuter des opérations sur CPU ou GPU sans copie de mémoire. Le module MLX LM facilite la génération de texte, l’inférence et l’affinage de grands modèles, avec prise en charge de la quantification. La plupart des modèles disponibles sur Hugging Face peuvent être exécutés localement (MLX).

Méthodologie

Les tests comparent des MacBook Pro M4 et M5 avec MLX LM, en mesurant le temps jusqu’au premier jeton (TTFT) ainsi que le débit lors de la génération de 128 jetons supplémentaires, pour un prompt de 4 096 jetons. Les modèles évalués incluent Qwen 1.7B et 8B en BF16, Qwen 8B et 14B quantifiés en 4 bits, ainsi que deux Mixture of Experts (MoE) : Qwen 30B (3B de paramètres actifs, 4 bits) et GPT OSS 20B (précision MXFP4 native).

Résultats clés

Les GPU Neural Accelerators du M5 ajoutent des opérations dédiées de multiplication de matrices, cruciales pour les charges IA.
Pour la génération de jetons après le premier, le M5 offre un gain de 19 à 27 % par rapport au M4, porté par une bande passante mémoire plus élevée (120 GB/s sur M4, 153 GB/s sur M5, soit +28 %).
Le TTFT et le débit sont affectés différemment : le premier jeton est surtout limité par le calcul, les suivants par la mémoire.
Un MacBook Pro avec 24 Go peut héberger un modèle 8B en BF16 ou un MoE 30B quantifié en 4 bits, avec une empreinte d’inférence inférieure à 18 Go.
Pour la génération d’images, Apple annonce un gain supérieur à 3,8 fois en faveur du M5.

Apple publie l’ensemble des mesures et précisions techniques sur son blog de recherche (machinelearning.apple.com), ainsi que la documentation complète de MLX (mlx-framework.org).

M5 vs M4 : Apple mesure des LLM locaux 19 à 27 % plus rapides

Contexte MLX

Méthodologie

Résultats clés

Apple prépare un verrouillage automatique de l’iPhone en cas d’arrachage

Apple précise plusieurs failles (CVE) corrigées dans macOS, iOS, iPadOS, visionOS et watchOS

Apple Wallet : l’identifiant numérique sert désormais à vérifier l’âge sur certains services

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

M5 vs M4 : Apple mesure des LLM locaux 19 à 27 % plus rapides

Contexte MLX

Méthodologie

Résultats clés

Related Posts

Apple prépare un verrouillage automatique de l’iPhone en cas d’arrachage

Apple précise plusieurs failles (CVE) corrigées dans macOS, iOS, iPadOS, visionOS et watchOS

Apple Wallet : l’identifiant numérique sert désormais à vérifier l’âge sur certains services

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2