
Concept des Apple Glasses
Depuis plusieurs mois, les rumeurs s’enchaînent autour des projets d’Apple de lancer des vêtements connectés intelligents. Selon les dernières informations, les concurrents directs des Ray-Bans de Meta pourraient voir le jour vers 2027, accompagnés d’AirPods dotés de caméras, qui proposeront leurs propres fonctionnalités intelligentes basées sur l’IA.
Bien qu’il soit encore trop tôt pour connaître toutes les caractéristiques de ces lunettes, Apple a récemment dévoilé un aperçu des performances de leur intelligence artificielle. En 2023, l’équipe de recherche en apprentissage automatique d’Apple a présenté MLX, son propre cadre d’apprentissage ouvert spécifiquement conçu pour Apple Silicon.
MLX propose une méthode légère pour entraîner et exécuter des modèles localement sur les appareils Apple, tout en restant accessible pour les développeurs habitués aux cadres et langages de développement en intelligence artificielle.
FastVLM : L’intelligence visuelle à une vitesse fulgurante
Désormais, Apple a introduit FastVLM, un modèle de langage visuel utilisant MLX pour offrir un traitement d’images haute résolution à vitesse quasi-instantanée, tout en nécessitant beaucoup moins de puissance de calcul que des modèles comparables. Comme l’explique Apple :
« Sur la base d’une analyse complète de l’efficacité de l’interaction entre la résolution d’image, la latence visuelle, le nombre de tokens et la taille des LLM, nous introduisons FastVLM — un modèle qui optimise le compromis entre latence, taille du modèle et précision. »
Au cœur de FastVLM se trouve un encodeur nommé FastViTHD. Celui-ci a été « spécifiquement conçu pour une performance efficiente du VLM sur des images haute résolution ».
FastVLM est jusqu’à 3,2 fois plus rapide et 3,6 fois plus compact que des modèles similaires. Cela s’avère crucial pour traiter localement des informations sur l’appareil, sans dépendre du cloud pour générer une réponse aux commandes de l’utilisateur ou à ce qu’il observe. En outre, FastVLM a été conçu pour produire moins de tokens, ce qui reste essentiel pour la phase d’inférence, lorsque le modèle interprète les données pour générer une réponse. Selon Apple, leur modèle propose un temps « 85 fois plus rapide pour le premier token » que les modèles concurrents, soit le temps entre l’envoi du premier prompt par l’utilisateur et la réception du premier token de la réponse. Moins de tokens pour un modèle plus rapide et plus léger signifie un traitement plus rapide.
FastVLM est disponible sur GitHub, et vous pouvez consulter le rapport de recherche sur arXiv pour ceux qui souhaitent creuser les aspects techniques plus en profondeur.