
Apple détaille, dans un article de recherche, des gains nets pour l’inférence locale de modèles de langage avec la puce M5 par rapport à la M4, en s’appuyant sur le framework MLX (Machine Learning Research).
Contexte MLX
MLX est un framework open source optimisé pour Apple silicon, conçu pour l’apprentissage automatique et le calcul scientifique, avec une API proche de NumPy. Il exploite la mémoire unifiée d’Apple silicon et permet d’exécuter des opérations sur CPU ou GPU sans copie de mémoire. Le module MLX LM facilite la génération de texte, l’inférence et l’affinage de grands modèles, avec prise en charge de la quantification. La plupart des modèles disponibles sur Hugging Face peuvent être exécutés localement (MLX).
Méthodologie
Les tests comparent des MacBook Pro M4 et M5 avec MLX LM, en mesurant le temps jusqu’au premier jeton (TTFT) ainsi que le débit lors de la génération de 128 jetons supplémentaires, pour un prompt de 4 096 jetons. Les modèles évalués incluent Qwen 1.7B et 8B en BF16, Qwen 8B et 14B quantifiés en 4 bits, ainsi que deux Mixture of Experts (MoE) : Qwen 30B (3B de paramètres actifs, 4 bits) et GPT OSS 20B (précision MXFP4 native).
Résultats clés
- Les GPU Neural Accelerators du M5 ajoutent des opérations dédiées de multiplication de matrices, cruciales pour les charges IA.
- Pour la génération de jetons après le premier, le M5 offre un gain de 19 à 27 % par rapport au M4, porté par une bande passante mémoire plus élevée (120 GB/s sur M4, 153 GB/s sur M5, soit +28 %).
- Le TTFT et le débit sont affectés différemment : le premier jeton est surtout limité par le calcul, les suivants par la mémoire.
- Un MacBook Pro avec 24 Go peut héberger un modèle 8B en BF16 ou un MoE 30B quantifié en 4 bits, avec une empreinte d’inférence inférieure à 18 Go.
- Pour la génération d’images, Apple annonce un gain supérieur à 3,8 fois en faveur du M5.
Apple publie l’ensemble des mesures et précisions techniques sur son blog de recherche (machinelearning.apple.com), ainsi que la documentation complète de MLX (mlx-framework.org).