LLM et Reconnaissance d'Activité : Apple Innove !

Apple publie une étude sur l’usage de grands modèles de langage (LLM) pour fusionner, en fin de chaîne, des indices audio et des données issues d’IMU (accéléromètre et gyroscope). Objectif : améliorer la reconnaissance d’activités réelles lorsque les signaux capteurs sont limités.

Intitulée « Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition », l’étude est disponible sur le site Apple Machine Learning Research (machinelearning.apple.com). Le LLM n’ingère pas l’audio brut ni les séries IMU brutes : il agrège des descriptions textuelles et des prédictions générées par des modèles spécialisés, puis réalise la classification.

À retenir

Des LLM (dont Gemini-2.5-pro et Qwen-32B) obtiennent en zero-shot des scores F1 au-dessus du hasard sur 12 classes d’activités, sans entraînement spécifique.
Avec un seul exemple (one-shot), les performances progressent encore.
Approche de « late fusion » : le LLM combine des légendes et étiquettes audio et des prédictions IMU, sans accès aux signaux bruts.
Utile lorsque les données d’entraînement alignées sont rares, tout en évitant le coût mémoire et calcul d’un modèle multimodal dédié.

Méthodologie

Les chercheurs s’appuient sur Ego4D, vaste corpus en vision à la première personne. Un sous-ensemble d’extraits de 20 secondes couvre 12 activités : passer l’aspirateur, cuisiner, faire la lessive, manger, jouer au basket, jouer au football, jouer avec des animaux de compagnie, lire un livre, utiliser un ordinateur, faire la vaisselle, regarder la télévision, faire de la musculation.

Les sorties des modèles audio et IMU sont ensuite proposées à différents LLM pour évaluer la classification dans deux scénarios : liste fermée (12 options fournies) et réponse ouverte (sans liste). Les combinaisons testées incluent légendes audio, étiquettes audio, prédictions d’activité IMU et contexte additionnel.

Ce que cela apporte

Les résultats indiquent que l’agrégation via LLM renforce l’interprétation de l’activité, notamment lorsque les signaux capteurs seuls restent ambigus. Apple publie également des éléments de reproductibilité (identifiants de segments Ego4D, horodatages, prompts et exemples one-shot) sur la page de l’étude (machinelearning.apple.com).

Reconnaissance d’activité : Apple montre l’apport des LLM avec audio et mouvements

À retenir

Méthodologie

Ce que cela apporte

M5 Pro et M5 Max : Apple détaille l’arrivée de trois catégories de cœurs CPU

Siri dopée à Gemini : une première vague de fonctions encore possible fin mars

iOS 27 : date de sortie, priorités de stabilité et nouvelles pistes Apple Intelligence

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

tvOS 26.4 introduit une option audio « Continuous Audio Connection » sur Apple TV

Comment rechercher du texte dans une page web sur Safari iPhone et iPad ?

Reconnaissance d’activité : Apple montre l’apport des LLM avec audio et mouvements

À retenir

Méthodologie

Ce que cela apporte

Related Posts

M5 Pro et M5 Max : Apple détaille l’arrivée de trois catégories de cœurs CPU

Siri dopée à Gemini : une première vague de fonctions encore possible fin mars

iOS 27 : date de sortie, priorités de stabilité et nouvelles pistes Apple Intelligence

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

tvOS 26.4 introduit une option audio « Continuous Audio Connection » sur Apple TV

Comment rechercher du texte dans une page web sur Safari iPhone et iPad ?