
Apple publie une étude révisée présentant LaDiR, un cadre de raisonnement destiné à améliorer la qualité des réponses des grands modèles de langage, notamment en mathématiques, en génération de code et sur des tâches de planification.
Diffusion et autoregression, combinées
Dans l’article LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning (Apple Machine Learning Research), des chercheurs d’Apple, avec des chercheurs de l’University of California, San Diego, détaillent une approche hybride visant à renforcer le raisonnement textuel des LLM.
Le principe consiste à utiliser une phase de diffusion pendant le raisonnement, puis à produire la réponse finale en autoregression, c’est-à-dire token par token. L’intérêt annoncé repose aussi sur l’exploration en parallèle de plusieurs trajectoires de raisonnement, afin de générer un ensemble plus diversifié de candidats.
Lors de l’inférence, LaDiR génère des blocs internes de raisonnement. Chaque bloc démarre sous forme de bruit, puis est progressivement raffiné jusqu’à devenir une étape plus cohérente. Quand le système estime le raisonnement suffisant, il bascule vers une génération autoregressive de la réponse finale.
Point clé du dispositif : plusieurs chemins de raisonnement peuvent être exécutés simultanément, avec un mécanisme conçu pour éviter une convergence trop précoce vers une seule hypothèse, ce qui irait à l’encontre de l’objectif de diversité.
LaDiR n’est pas présenté comme un nouveau modèle à part entière, mais comme un cadre qui s’appuie sur des modèles existants et modifie la manière dont ils structurent leur raisonnement, plutôt que de les remplacer.
Résultats rapportés dans l’étude
Les chercheurs indiquent avoir appliqué LaDiR à Meta LLaMA 3.1 8B pour le raisonnement mathématique et la planification de puzzles, et à Qwen3-8B-Base pour la génération de code.
- Mathématiques : amélioration de la précision par rapport aux approches existantes, y compris sur des tâches plus difficiles et hors distribution.
- Génération de code (dont HumanEval) : sorties jugées plus fiables, avec un gain net face au fine-tuning standard, particulièrement sur les problèmes complexes.
- Planification “puzzle” (ex. Countdown) : exploration d’un éventail plus large de réponses valides et résolution plus régulière que les bases généralistes, avec toutefois une précision en tentative unique inférieure à un modèle spécialisé.
Le préprint associé est également disponible sur arXiv.