
Apple Research présente RubiCap, une nouvelle méthode d’entraînement pour la « dense image captioning » qui vise des descriptions d’images plus précises et plus détaillées, tout en reposant sur des modèles nettement plus petits.
Un cadre d’entraînement conçu pour des descriptions fines, région par région
Le travail, intitulé RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning, a été mené par une équipe d’Apple Researchers en collaboration avec l’University of Wisconsin—Madison. Objectif : obtenir des résultats de pointe sur plusieurs benchmarks, en s’attaquant aux limites des approches actuelles.
La dense image captioning consiste à générer des descriptions localisées à l’échelle des régions d’une image, plutôt qu’une légende globale. Le système identifie plusieurs éléments et zones, puis les décrit avec davantage de granularité, pour une lecture plus riche de la scène.
Pourquoi Apple change d’approche
D’après les chercheurs, l’annotation de qualité experte est difficile à faire évoluer à grande échelle. L’alternative par légendes synthétiques produites par des vision-language models (VLM) est plus pratique, mais l’entraînement supervisé par distillation tend à limiter la diversité des sorties et la capacité de généralisation. Le renforcement (RL) pourrait corriger ces faiblesses, mais il est plus compliqué à appliquer à des tâches ouvertes comme la légende d’image, faute de vérificateur déterministe.
Comment RubiCap fabrique un signal d’apprentissage plus exploitable
Le protocole décrit dans l’étude s’appuie sur un échantillonnage aléatoire de 50 000 images issues de deux jeux d’entraînement : PixMoCap et DenseFusion-4V-100K. Pour chaque image, plusieurs légendes candidates sont produites par des modèles existants (Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT et Qwen3-VL-30B-A3B-Instruct), en parallèle de la légende générée par le modèle en cours d’entraînement sous RubiCap.
- Gemini 2.5 Pro analyse l’image, les légendes candidates et la sortie du modèle, puis extrait des critères explicites : points d’accord, éléments manqués, imprécisions.
- Qwen2.5-7B-Instruct joue le rôle de juge et note chaque légende selon ces critères.
- Ces notes servent de « reward » pour l’apprentissage par renforcement, afin de guider des corrections ciblées sans dépendre d’une unique réponse considérée comme « correcte ».
Trois modèles, jusqu’à 7 milliards de paramètres
Les chercheurs aboutissent à trois variantes : RubiCap-2B, RubiCap-3B et RubiCap-7B, correspondant à 2, 3 et 7 milliards de paramètres. Le papier indique des performances qui dépassent celles de méthodes concurrentes, y compris face à des modèles beaucoup plus volumineux (jusqu’à 72 milliards de paramètres) sur certains classements et évaluations.
Point notable : le modèle RubiCap-3B surpasse parfois des variantes plus grandes selon les benchmarks rapportés, ce qui suggère qu’un modèle dense de qualité ne dépend pas mécaniquement d’un passage à l’échelle massif. L’étude souligne aussi qu’utiliser RubiCap-3B comme générateur de légendes peut renforcer l’entraînement de VLMs préentraînés, y compris face à des légendes issues de modèles propriétaires.
Les détails méthodologiques et les définitions techniques figurent dans la publication complète sur machinelearning.apple.com.