
Des chercheurs d’Apple présentent Manzano, un modèle multimodal unifié capable à la fois de comprendre des images et de générer des visuels à partir de texte, en réduisant les compromis de performance traditionnellement observés entre ces deux tâches.
Le problème traité
Les approches unifiées actuelles peinent à exceller simultanément en compréhension et en génération, en raison de la tokenisation visuelle. La génération auto-régressive privilégie des jetons d’image discrets, tandis que la compréhension bénéficie d’embeddings continus. L’usage de deux tokeniseurs impose au modèle de langage de concilier des représentations hétérogènes (sémantique vs. spatiale), ce qui crée des conflits d’objectifs et des inefficacités paramétriques.
Architecture
- Tokeniseur visuel hybride : produit des représentations continues et discrètes.
- Décodeur LLM : accepte des jetons texte et/ou des embeddings d’image continus et prédit, de manière auto-régressive, les prochains jetons d’image ou de texte au sein d’un vocabulaire commun.
- Décodeur d’image : rend les pixels à partir des jetons d’image prédits, via un processus de diffusion.
Performances et cas d’usage
Selon l’étude, Manzano traite correctement des invites contre-intuitives (« L’oiseau vole sous l’éléphant ») avec des résultats comparables à GPT-4o et Nano Banana (Google). Sur plusieurs benchmarks, les modèles Manzano 3B et 30B affichent des performances supérieures ou compétitives face aux meilleurs modèles multimodaux unifiés.
Échelle des modèles
Manzano a été évalué à différentes tailles, d’environ 300 millions à 30 milliards de paramètres, afin de mesurer les gains liés au changement d’échelle sur les tâches unifiées de compréhension et de génération.
Édition et transformation d’images
Le modèle montre également de bonnes capacités en édition guidée par instructions, transfert de style, inpainting/outpainting et estimation de profondeur.
L’étude complète et les détails techniques (formation du tokeniseur hybride, conception du décodeur de diffusion, expériences d’échelle et évaluations humaines) sont disponibles sur le site Apple Machine Learning Research : MANZANO.