
À l’heure actuelle, la plupart des modèles d’images génératives sont classés en deux catégories principales : les modèles de diffusion, comme Stable Diffusion, ou les modèles autorégressifs, tels que GPT-4o d’OpenAI. Cependant, Apple vient de publier deux nouveaux articles qui révèlent un potentiel pour une troisième technique souvent négligée : les Flots Normalisants, combinés avec une pincée de Transformers.
Premiers pas avec les Flots Normalisants
Les Flots Normalisants (NFs) sont un type de modèle d’IA qui apprennent à transformer mathématiquement les données réelles (comme les images) en bruit structuré avant d’inverser le processus pour générer de nouvelles échantillons. L’avantage principal réside dans leur capacité à calculer la probabilité exacte de chaque image générée, une caractéristique que les modèles de diffusion ne possèdent pas, ce qui les rend particulièrement attrayants pour des tâches où la compréhension de la probabilité d’un résultat est cruciale.
Étude n°1 : TarFlow
Dans l’article « Normalizing Flows are Capable Generative Models », Apple dévoile un nouveau modèle appelé TarFlow, abréviation de Transformer AutoRegressive Flow. TarFlow remplace les couches traditionnelles des anciens modèles de flots par des blocs de Transformeurs. En divisant les images en petits blocs et en les générant bloc par bloc, il préserve une qualité supérieure en évitant la perte due à la division de l’image en tokens.
Étude n°2 : StarFlow
Le second article, « STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis« , introduit des améliorations significatives. STARFlow opère dans un espace latent compressé avant de restaurer l’image à haute résolution à l’aide d’un décodeur. Cela permet de se concentrer sur la structure globale de l’image avant de finaliser les détails avec le décodeur.
Apple a également optimisé l’intelligence linguistique, en intégrant des modèles comme Gemma pour mieux comprendre les prompts textuels de l’utilisateur, sans surcharger le modèle d’image. Ce choix renforce la finesse des détails visuels tout en maintenant la liberté de produire des images complexes.
Comparaison avec le générateur d’images GPT-4o d’OpenAI
Alors qu’Apple réinvente les flots, OpenAI explore également au-delà des diffusions avec son modèle GPT-4o. La différence majeure réside dans l’approche : GPT-4o traite les images comme des séquences de tokens, imitant la structure lexicale d’une phrase. Bien que cela offre une flexibilité extrême, permettant de générer texte, image et audio dans un flux unifié, cette méthode est lente et coûteuse en ressources, ce qui n’est pas un problème étant donné que GPT-4o fonctionne entièrement dans le cloud.
En résumé, Apple et OpenAI progressent tous deux au-delà de la diffusion, OpenAI en exploitant la puissance du cloud, tandis qu’Apple se concentre sur des solutions susceptibles de trouver leur place dans nos poches.