Manzano : le modèle unifié d'Apple pour images innovantes

Des chercheurs d’Apple présentent Manzano, un modèle multimodal unifié capable à la fois de comprendre des images et de générer des visuels à partir de texte, en réduisant les compromis de performance traditionnellement observés entre ces deux tâches.

Le problème traité

Les approches unifiées actuelles peinent à exceller simultanément en compréhension et en génération, en raison de la tokenisation visuelle. La génération auto-régressive privilégie des jetons d’image discrets, tandis que la compréhension bénéficie d’embeddings continus. L’usage de deux tokeniseurs impose au modèle de langage de concilier des représentations hétérogènes (sémantique vs. spatiale), ce qui crée des conflits d’objectifs et des inefficacités paramétriques.

Architecture

Tokeniseur visuel hybride : produit des représentations continues et discrètes.
Décodeur LLM : accepte des jetons texte et/ou des embeddings d’image continus et prédit, de manière auto-régressive, les prochains jetons d’image ou de texte au sein d’un vocabulaire commun.
Décodeur d’image : rend les pixels à partir des jetons d’image prédits, via un processus de diffusion.

Performances et cas d’usage

Selon l’étude, Manzano traite correctement des invites contre-intuitives (« L’oiseau vole sous l’éléphant ») avec des résultats comparables à GPT-4o et Nano Banana (Google). Sur plusieurs benchmarks, les modèles Manzano 3B et 30B affichent des performances supérieures ou compétitives face aux meilleurs modèles multimodaux unifiés.

Échelle des modèles

Manzano a été évalué à différentes tailles, d’environ 300 millions à 30 milliards de paramètres, afin de mesurer les gains liés au changement d’échelle sur les tâches unifiées de compréhension et de génération.

Édition et transformation d’images

Le modèle montre également de bonnes capacités en édition guidée par instructions, transfert de style, inpainting/outpainting et estimation de profondeur.

L’étude complète et les détails techniques (formation du tokeniseur hybride, conception du décodeur de diffusion, expériences d’échelle et évaluations humaines) sont disponibles sur le site Apple Machine Learning Research : MANZANO.

Manzano : le modèle unifié d’Apple pour comprendre et générer des images

Le problème traité

Architecture

Performances et cas d’usage

Échelle des modèles

Édition et transformation d’images

iOS 27 : trois fonctionnalités encore absentes, mais attendues d’ici septembre

iOS 27 installe une app Siri dédiée sur l’écran d’accueil de l’iPhone

Icon Composer 2 et SF Symbols 8 : Apple publie les bêtas pour iOS 27 et macOS 27

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Manzano : le modèle unifié d’Apple pour comprendre et générer des images

Le problème traité

Architecture

Performances et cas d’usage

Échelle des modèles

Édition et transformation d’images

Related Posts

iOS 27 : trois fonctionnalités encore absentes, mais attendues d’ici septembre

iOS 27 installe une app Siri dédiée sur l’écran d’accueil de l’iPhone

Icon Composer 2 et SF Symbols 8 : Apple publie les bêtas pour iOS 27 et macOS 27

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2