Apple et l'IA : Nouvelle technique d'Images Révélée

À l’heure actuelle, la plupart des modèles d’images génératives sont classés en deux catégories principales : les modèles de diffusion, comme Stable Diffusion, ou les modèles autorégressifs, tels que GPT-4o d’OpenAI. Cependant, Apple vient de publier deux nouveaux articles qui révèlent un potentiel pour une troisième technique souvent négligée : les Flots Normalisants, combinés avec une pincée de Transformers.

Premiers pas avec les Flots Normalisants

Les Flots Normalisants (NFs) sont un type de modèle d’IA qui apprennent à transformer mathématiquement les données réelles (comme les images) en bruit structuré avant d’inverser le processus pour générer de nouvelles échantillons. L’avantage principal réside dans leur capacité à calculer la probabilité exacte de chaque image générée, une caractéristique que les modèles de diffusion ne possèdent pas, ce qui les rend particulièrement attrayants pour des tâches où la compréhension de la probabilité d’un résultat est cruciale.

Étude n°1 : TarFlow

Dans l’article « Normalizing Flows are Capable Generative Models », Apple dévoile un nouveau modèle appelé TarFlow, abréviation de Transformer AutoRegressive Flow. TarFlow remplace les couches traditionnelles des anciens modèles de flots par des blocs de Transformeurs. En divisant les images en petits blocs et en les générant bloc par bloc, il préserve une qualité supérieure en évitant la perte due à la division de l’image en tokens.

Étude n°2 : StarFlow

Le second article, « STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis« , introduit des améliorations significatives. STARFlow opère dans un espace latent compressé avant de restaurer l’image à haute résolution à l’aide d’un décodeur. Cela permet de se concentrer sur la structure globale de l’image avant de finaliser les détails avec le décodeur.

Apple a également optimisé l’intelligence linguistique, en intégrant des modèles comme Gemma pour mieux comprendre les prompts textuels de l’utilisateur, sans surcharger le modèle d’image. Ce choix renforce la finesse des détails visuels tout en maintenant la liberté de produire des images complexes.

Comparaison avec le générateur d’images GPT-4o d’OpenAI

Alors qu’Apple réinvente les flots, OpenAI explore également au-delà des diffusions avec son modèle GPT-4o. La différence majeure réside dans l’approche : GPT-4o traite les images comme des séquences de tokens, imitant la structure lexicale d’une phrase. Bien que cela offre une flexibilité extrême, permettant de générer texte, image et audio dans un flux unifié, cette méthode est lente et coûteuse en ressources, ce qui n’est pas un problème étant donné que GPT-4o fonctionne entièrement dans le cloud.

En résumé, Apple et OpenAI progressent tous deux au-delà de la diffusion, OpenAI en exploitant la puissance du cloud, tandis qu’Apple se concentre sur des solutions susceptibles de trouver leur place dans nos poches.

Apple redécouvre une technique d’IA oubliée pour créer des images

Premiers pas avec les Flots Normalisants

Étude n°1 : TarFlow

Étude n°2 : StarFlow

Comparaison avec le générateur d’images GPT-4o d’OpenAI

Apple laisse entendre que l’iPad d’entrée de gamme avec puce A18 n’arrivera pas tout de suite

Fortnite revient sur iPhone au Japon via l’Epic Games Store, toujours absent sur Mac

Après les résultats du T2 2026, l’action Apple progresse légèrement hors séance

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

Apple redécouvre une technique d’IA oubliée pour créer des images

Premiers pas avec les Flots Normalisants

Étude n°1 : TarFlow

Étude n°2 : StarFlow

Comparaison avec le générateur d’images GPT-4o d’OpenAI

Related Posts

Apple laisse entendre que l’iPad d’entrée de gamme avec puce A18 n’arrivera pas tout de suite

Fortnite revient sur iPhone au Japon via l’Epic Games Store, toujours absent sur Mac

Après les résultats du T2 2026, l’action Apple progresse légèrement hors séance

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés