
Apple publie une étude sur l’usage de grands modèles de langage (LLM) pour fusionner, en fin de chaîne, des indices audio et des données issues d’IMU (accéléromètre et gyroscope). Objectif : améliorer la reconnaissance d’activités réelles lorsque les signaux capteurs sont limités.
Intitulée « Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition », l’étude est disponible sur le site Apple Machine Learning Research (machinelearning.apple.com). Le LLM n’ingère pas l’audio brut ni les séries IMU brutes : il agrège des descriptions textuelles et des prédictions générées par des modèles spécialisés, puis réalise la classification.
À retenir
- Des LLM (dont Gemini-2.5-pro et Qwen-32B) obtiennent en zero-shot des scores F1 au-dessus du hasard sur 12 classes d’activités, sans entraînement spécifique.
- Avec un seul exemple (one-shot), les performances progressent encore.
- Approche de « late fusion » : le LLM combine des légendes et étiquettes audio et des prédictions IMU, sans accès aux signaux bruts.
- Utile lorsque les données d’entraînement alignées sont rares, tout en évitant le coût mémoire et calcul d’un modèle multimodal dédié.
Méthodologie
Les chercheurs s’appuient sur Ego4D, vaste corpus en vision à la première personne. Un sous-ensemble d’extraits de 20 secondes couvre 12 activités : passer l’aspirateur, cuisiner, faire la lessive, manger, jouer au basket, jouer au football, jouer avec des animaux de compagnie, lire un livre, utiliser un ordinateur, faire la vaisselle, regarder la télévision, faire de la musculation.
Les sorties des modèles audio et IMU sont ensuite proposées à différents LLM pour évaluer la classification dans deux scénarios : liste fermée (12 options fournies) et réponse ouverte (sans liste). Les combinaisons testées incluent légendes audio, étiquettes audio, prédictions d’activité IMU et contexte additionnel.
Ce que cela apporte
Les résultats indiquent que l’agrégation via LLM renforce l’interprétation de l’activité, notamment lorsque les signaux capteurs seuls restent ambigus. Apple publie également des éléments de reproductibilité (identifiants de segments Ego4D, horodatages, prompts et exemples one-shot) sur la page de l’étude (machinelearning.apple.com).