
Lancé début janvier, ChatGPT Health s’intègre à Apple Health et à d’autres sources de données. Un essai mené par Geoffrey A. Fowler pour le Washington Post met en évidence des interprétations erronées et instables des mesures issues d’une Apple Watch (Washington Post).
Fowler a donné accès à ses données Apple Health, dont 29 millions de pas et 6 millions de mesures de fréquence cardiaque, puis a demandé une évaluation de sa santé cardiovasculaire. Le service a d’abord attribué une note « F », contredite par son médecin qui a jugé son risque cardio très faible.
Principales limites observées
- Surinterprétation du VO2 max : ChatGPT Health a fondé une partie notable de son diagnostic sur le VO2 max, alors que les mesures de l’Apple Watch sont des estimations, utiles pour suivre des tendances mais moins précises que des tests dédiés.
- Effets de changements matériels : des variations apparentes de fréquence cardiaque au repos correspondaient au remplacement de l’Apple Watch et à l’évolution des capteurs, un facteur non pris en compte par l’analyse.
- Réponses incohérentes : à la même question de « grade » cardiaque, la note a fluctué de F à B. Le service a aussi oublié des informations clés (genre, âge) et n’a pas toujours utilisé des résultats sanguins pourtant disponibles.
Ces constats, détaillés par Geoffrey A. Fowler (Washington Post), soulignent les enjeux de fiabilité lorsque des outils d’IA interprètent des données de santé issues de l’Apple Watch.