
Apple a entraîné une version adaptée du modèle SlowFast-LLaVA qui surpasse des modèles plus imposants en matière d’analyse et de compréhension de vidéos longues. Mais que cela signifie-t-il exactement?
Les détails techniques
Lorsqu’un modèle de langage est formé à comprendre les vidéos, il apprend à diviser celles-ci en cadres, utilise la vision par ordinateur pour extraire les éléments visuels, analyse l’évolution de ces éléments au fil du temps, et aligne l’ensemble de ces données avec le langage. Ainsi, il peut décrire ou raisonner à propos de la vidéo sous forme de texte.
Une méthode inefficace consiste à analyser chaque cadre individuellement, générant ainsi une multitude d’informations redondantes, car la plupart des cadres présentent peu de changements significatifs. Cela peut facilement dépasser la fenêtre contextuelle maximale du modèle, occasionnant ainsi des pertes d’informations au fur et à mesure de l’analyse.
Étude d’Apple
L’étude d’Apple, présentée dans le SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding, explore comment les modèles actuels s’appuient trop sur de longues fenêtres contextuelles et un nombre élevé de cadres, rendant l’adaptation à des modèles plus petits difficile. De plus, ils requièrent souvent des pipelines d’entraînement complexes et optimisés exclusivement pour des tâches vidéo, limitant leur usage.
Apple a optimisé SlowFast-LLaVA en combinant des indices spatiaux et temporels, avec un flux lent couvrant moins de cadres en détail et un flux rapide couvrant plus de cadres en détail réduit. Ce modèle, après affinage, a été testé avec succès sur des images et vidéos provenant de jeux de données publics.
Le résultat est le SlowFast-LLaVA-1.5, un modèle disponible sous trois tailles (1B, 3B et 7B paramètres) qui surpasse des modèles bien plus grands dans diverses tâches vidéo.
Limitations et perspectives
Le modèle SF-LLaVA-1.5, bien qu’innovant, se limite à un maximum de 128 cadres d’entrée. Ce choix peut conduire à des omissions de cadres clés dans des vidéos longues. Les chercheurs d’Apple notent que des optimisations ultérieures en matière d’économie de mémoire, comme le Stochastic BP, pourraient améliorer ses performances.
Malgré ces limites, le modèle demeure un outil de pointe, entraîné exclusivement sur des jeux de données publics. Pour les curieux, SF-LLaVA-1.5 est accessible en open-source sur GitHub et Hugging Face.