
Des chercheurs du MIT et d’Empirical Health ont entraîné un modèle de fondation sur plus de 3 millions de jours-personnes de données issues de l’Apple Watch, capable d’indiquer la présence de pathologies avec un fort pouvoir de discrimination.
L’étude, intitulée « JETS: A Self-Supervised Joint Embedding Time Series Foundation Model for Behavioral Data in Healthcare », a été publiée il y a quelques mois et vient d’être acceptée dans un atelier à NeurIPS (OpenReview).
Contexte
Le modèle JETS s’inspire de l’architecture JEPA proposée par Yann LeCun, qui apprend à prédire la représentation de données manquantes plutôt que leur valeur exacte. Meta a illustré cette approche avec I-JEPA en 2023 (ai.meta.com).
Méthode
- Jeu de données longitudinal : 16 522 personnes, environ 3 millions de jours-personnes.
- 63 métriques de séries temporelles, à résolution quotidienne ou plus faible, dans cinq domaines : cardiovasculaire, respiratoire, sommeil, activité physique et statistiques générales.
- Seulement 15 % des participants disposaient d’historiques médicaux labellisés : pré-entraînement auto-supervisé sur l’ensemble, puis affinage sur la partie étiquetée.
- Adaptation aux séries temporelles multivariées irrégulières (mesures hétérogènes, lacunes fréquentes).
- Transformation des observations en triplets (jour, valeur, type de métrique) convertis en tokens, masqués puis encodés ; un prédicteur estime l’embedding des segments manquants.
Résultats
- JETS surpasse des modèles de référence, dont une version antérieure basée sur un Transformer, selon l’AUROC et l’AUPRC.
- Quelques AUROC rapportés : hypertension 86,8 %, flutter atrial 70,5 %, syndrome de fatigue chronique 81,0 %, dysfonction du nœud sinusal 86,8 %.
- L’AUROC et l’AUPRC évaluent la capacité à classer les cas positifs versus négatifs, pas une « précision » brute.
- Forte hétérogénéité des signaux : certaines métriques n’étaient présentes que 0,4 % du temps, d’autres 99 %.
L’étude complète est disponible sur OpenReview : JETS.