
Dans une nouvelle étude, des chercheurs d’Apple présentent un modèle de diffusion capable de générer du texte jusqu’à 128 fois plus rapidement que ses homologues. Voici son fonctionnement.
Les dessous techniques
Ce qu’il faut savoir : Les LLMs comme ChatGPT sont des modèles autorégressifs qui génèrent du texte séquentiellement, un jeton à la fois, en tenant compte des invites de l’utilisateur et des jetons déjà générés.
Les modèles de diffusion, par opposition, génèrent plusieurs jetons en parallèle, les raffinant sur plusieurs étapes jusqu’à ce que la réponse complète se forme.
Un sous-type de ces modèles de diffusion, appelé modèles de flow-matching, élimine le processus itératif pour produire le résultat final d’un seul coup.
Pour une plongée approfondie dans le fonctionnement des modèles de diffusion, consultez cet article sur le modèle de codage d’Apple basé sur la diffusion. Et pour en savoir plus sur les modèles de flow-matching, regardez cet article sur le modèle d’Apple pour la prédiction de repliement des protéines.
La nouvelle étude d’Apple
Dans une étude publiée aujourd’hui et intitulée « FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models », les chercheurs d’Apple et de l’université de l’Ohio présentent un nouveau modèle appelé Few-Step Discrete Flow-Matching, ou FS-DFM.
Les chercheurs montrent que FS-DFM peut rédiger des passages entiers avec seulement huit étapes rapides de raffinement, égalant la qualité des modèles de diffusion qui en nécessitent plus de mille pour atteindre un résultat similaire.
Cela est réalisé grâce à une approche en trois étapes : d’abord, le modèle est formé pour gérer différents budgets d’itérations de raffinement. Ensuite, un modèle enseignant le guide pour effectuer des mises à jour plus précises à chaque itération sans dépasser le texte attendu. Enfin, ils ajustent la manière dont fonctionne chaque itération afin d’atteindre le résultat final en moins d’étapes mais plus consistantes.
Comparé à des modèles de diffusion plus volumineux, le FS-DFM s’est bien comporté selon deux mesures importantes : la perplexité et l’entropie.
La perplexité est une mesure standard de la qualité du texte dans les modèles de langage : plus elle est basse, plus le texte semble naturel et précis. Quant à l’entropie, elle évalue la confiance du modèle dans le choix de chaque mot. Une entropie trop basse peut rendre le texte répétitif, tandis qu’une entropie trop élevée peut le rendre incohérent.
Avec des variantes de FS-DFM de 1,7, 1,3 et 0,17 milliard de paramètres, les résultats ont montré une perplexité inférieure et une entropie plus stable par rapport aux modèles de diffusion Dream et LLaDA.
Au vu de ces résultats prometteurs et l’absence de modèles similaires sur le marché, les chercheurs ont également annoncé qu’ils « prévoient de publier le code et les points de contrôle pour favoriser la reproductibilité et de futures recherches ».
Pour approfondir les méthodes d’Apple et les détails d’implémentation de ces modèles, vous pouvez consulter l’intégralité du document sur arXiv qui propose de nombreux exemples de performance.