
Apple a lancé Pico-Banana-400K, un ensemble de données de recherche contenant 400 000 images, réalisé grâce aux modèles Gemini-2.5 de Google. Un cadeau inestimable pour la communauté de la recherche en AI.
En publiant l’étude intitulée « Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing », l’équipe de recherche d’Apple offre un trésor d’images non soumises à des contraintes commerciales, donc utilisables pour la recherche académique et non commerciale. Ceci marque une étape majeure pour ceux qui souhaitent explorer et développer des modèles d’édition d’image assistés par IA.
Qu’est-ce que Pico-Banana-400K ?
Quelques mois plus tôt, Google a présenté le modèle Gemini-2.5-Flash-Image, ou Nanon-Banana, considéré comme un sommet actuel pour l’édition d’images par IA. Toutefois, les chercheurs d’Apple soulignent les limitations inhérentes à la plupart des ensembles de données actuels : taille réduite, génération synthétique, et manque de diversité. D’où l’initiative d’Apple.
La construction de Pico-Banana-400K
Pour constituer Pico-Banana-400K, Apple a puisé dans le dataset OpenImages, sélectionnant des photos authentiques couvrant les humains, objets et scènes textuelles. Ils ont ensuite défini 35 types de modifications, réparties en huit catégories : des filtres vintage à la modification de la météo, en passant par la transformation des visages en figurines Funko-Pop.
Après avoir soumis ces images à Nano-Banana avec ces instructions, les résultats ont été analysés par Gemini-2.5-Pro afin de valider la qualité visuelle et l’adéquation aux instructions initiales. Le résultat est un ensemble d’images comprenant des éditions simples et complexes, augmentant ainsi le potentiel d’apprentissage des modèles AI.
Malgré quelques limitations du modèle Nanon-Banana – comme l’édition spatiale fine – les chercheurs espèrent que Pico-Banana-400K servira de base solide pour les futures avancées en édition d’images guidée par texte. L’étude complète est disponible sur arXiv et l’ensemble de données est accessible sur GitHub.