Apple et LLaVA : Révolutionnez l'analyse vidéo

Apple a entraîné une version adaptée du modèle SlowFast-LLaVA qui surpasse des modèles plus imposants en matière d’analyse et de compréhension de vidéos longues. Mais que cela signifie-t-il exactement?

Les détails techniques

Lorsqu’un modèle de langage est formé à comprendre les vidéos, il apprend à diviser celles-ci en cadres, utilise la vision par ordinateur pour extraire les éléments visuels, analyse l’évolution de ces éléments au fil du temps, et aligne l’ensemble de ces données avec le langage. Ainsi, il peut décrire ou raisonner à propos de la vidéo sous forme de texte.

Une méthode inefficace consiste à analyser chaque cadre individuellement, générant ainsi une multitude d’informations redondantes, car la plupart des cadres présentent peu de changements significatifs. Cela peut facilement dépasser la fenêtre contextuelle maximale du modèle, occasionnant ainsi des pertes d’informations au fur et à mesure de l’analyse.

Étude d’Apple

L’étude d’Apple, présentée dans le SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding, explore comment les modèles actuels s’appuient trop sur de longues fenêtres contextuelles et un nombre élevé de cadres, rendant l’adaptation à des modèles plus petits difficile. De plus, ils requièrent souvent des pipelines d’entraînement complexes et optimisés exclusivement pour des tâches vidéo, limitant leur usage.

Apple a optimisé SlowFast-LLaVA en combinant des indices spatiaux et temporels, avec un flux lent couvrant moins de cadres en détail et un flux rapide couvrant plus de cadres en détail réduit. Ce modèle, après affinage, a été testé avec succès sur des images et vidéos provenant de jeux de données publics.

Le résultat est le SlowFast-LLaVA-1.5, un modèle disponible sous trois tailles (1B, 3B et 7B paramètres) qui surpasse des modèles bien plus grands dans diverses tâches vidéo.

Limitations et perspectives

Le modèle SF-LLaVA-1.5, bien qu’innovant, se limite à un maximum de 128 cadres d’entrée. Ce choix peut conduire à des omissions de cadres clés dans des vidéos longues. Les chercheurs d’Apple notent que des optimisations ultérieures en matière d’économie de mémoire, comme le Stochastic BP, pourraient améliorer ses performances.

Malgré ces limites, le modèle demeure un outil de pointe, entraîné exclusivement sur des jeux de données publics. Pour les curieux, SF-LLaVA-1.5 est accessible en open-source sur GitHub et Hugging Face.

Apple perfectionne l’analyse vidéo avec le modèle LLaVA

Les détails techniques

Étude d’Apple

Limitations et perspectives

watchOS 27 miserait sur la précision cardiaque, l’agent santé « Mulberry » attendu plus tard sur iOS 27

iOS 27 : les modèles d’images d’Apple Intelligence annoncés en nette hausse de qualité

iOS 27 : Apple préparerait l’ouverture d’AirPlay à Google Cast au niveau système

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple perfectionne l’analyse vidéo avec le modèle LLaVA

Les détails techniques

Étude d’Apple

Limitations et perspectives

Related Posts

watchOS 27 miserait sur la précision cardiaque, l’agent santé « Mulberry » attendu plus tard sur iOS 27

iOS 27 : les modèles d’images d’Apple Intelligence annoncés en nette hausse de qualité

iOS 27 : Apple préparerait l’ouverture d’AirPlay à Google Cast au niveau système

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2