
Il y a un nouveau document de recherche d’Apple qui fait parler de lui. Pourtant, si vous avez vu les réactions, on pourrait croire qu’il a renversé toute l’industrie des LLM. Loin de là, bien qu’il soit peut-être la meilleure tentative pour amener sur le devant de la scène une discussion que la communauté du ML a depuis longtemps. Voici pourquoi ce document est important.
Le document en question, L’Illusion de la Pensée, s’attaque à la compréhension des forces et des limites des modèles de raisonnement via la complexité des problèmes. En testant des modèles de raisonnement comme Claude 3.7 et DeepSeek-R1 avec des énigmes contrôlées, plutôt que des benchmarks mathématiques traditionnellement biaisés par la contamination des données, les résultats sont édifiants.
Les LRMs surperforment leurs cousins LLM sur des tâches de complexité moyenne, mais s’écroulent tout aussi dramatiquement sur les tâches plus complexes. Et plus préoccupant encore, à mesure que la difficulté augmente, ces modèles « raisonnant » semble penser moins, même s’il leur reste un budget de jetons.
Ce que montre réellement l’étude
La grande découverte est que les modèles vantés pour leur « raisonnement » échouent aux problèmes que même un enfant patient peut maîtriser. Dans le cas des modèles comme Claude, dans la tour de Hanoï, ils se décomposent après sept ou huit disques. Même en leur fournissant le chemin complet de la solution, le résultat reste décevant.
En réalité, ils n’effectuent pas un raisonnement mais prolongent itérativement des schémas d’inférence LLM d’une manière plus élaborée. Ce document d’Apple met en lumière les limites réelles, démystifiant des termes comme « raisonnement » et « pensée » qui suggèrent une inférence symbolique et une planification beaucoup plus complexe.
Pattern matching plutôt que résolution de problèmes
Le point le plus accablant de l’étude pourrait être celui-ci : l’augmentation de la complexité pousse les modèles à littéralement abandonner. Ils diminuent leur propre niveau de « réflexion » interne à mesure que les défis augmentent, alors qu’ils pourraient continuer à traiter. Ce n’est pas seulement un échec technique, mais une limitation conceptuelle.
L’étude d’Apple clarifie que beaucoup de LLM échouent non pas par manque d’entraînement ou de données, mais parce qu’ils manquent fondamentalement de la capacité de représenter et d’exécuter une logique algorithmique étape par étape.
En conclusion, ces résultats ne surprennent pas ceux du monde de la recherche en ML, mais ils soulignent une vérité : le grand public est peut-être enfin prêt à comprendre les limitations que le monde du ML souligne depuis longtemps.