Close Menu
AppSystemAppSystem
  • Astuces
  • Tutoriels
  • Boutique
    • Coques
      • iPhone 16
      • iPhone 15
      • iPhone 14
      • iPhone 13
      • iPhone 12
      • iPhone 11
      • iPhone XR
      • iPhone X(S)
      • iPhone SE
      • iPhone 8
    • Verres trempés
      • iPhone 16
      • iPhone 15
      • iPhone 14
      • iPhone 13
      • iPhone 12
      • iPhone 11
      • iPhone XR
      • iPhone X(S)
      • iPhone SE
      • iPhone 8
    • Accessoires
  • iPhone 15
  • Jailbreak
  • Bons Plans
  • Fonds d’écran
  • Accessoires
  • À propos
  • Contact
  • Publicité
Facebook X (Twitter)
  • iPhone 15
  • Jailbreak
  • Bons Plans
  • Fonds d’écran
  • Accessoires
Facebook X (Twitter)
AppSystemAppSystem
  • Astuces
  • Tutoriels
  • Boutique
    • Coques
      • iPhone 16
      • iPhone 15
      • iPhone 14
      • iPhone 13
      • iPhone 12
      • iPhone 11
      • iPhone XR
      • iPhone X(S)
      • iPhone SE
      • iPhone 8
    • Verres trempés
      • iPhone 16
      • iPhone 15
      • iPhone 14
      • iPhone 13
      • iPhone 12
      • iPhone 11
      • iPhone XR
      • iPhone X(S)
      • iPhone SE
      • iPhone 8
    • Accessoires
AppSystemAppSystem
Actualité

Apple perfectionne l’analyse vidéo avec le modèle LLaVA

Léon GalarneauBy Léon Galarneau23 août 2025Aucun commentaire2 Mins Read
WhatsApp Email Facebook Twitter Pinterest Telegram

Apple a entraîné une version adaptée du modèle SlowFast-LLaVA qui surpasse des modèles plus imposants en matière d’analyse et de compréhension de vidéos longues. Mais que cela signifie-t-il exactement?

Les détails techniques

Lorsqu’un modèle de langage est formé à comprendre les vidéos, il apprend à diviser celles-ci en cadres, utilise la vision par ordinateur pour extraire les éléments visuels, analyse l’évolution de ces éléments au fil du temps, et aligne l’ensemble de ces données avec le langage. Ainsi, il peut décrire ou raisonner à propos de la vidéo sous forme de texte.

Une méthode inefficace consiste à analyser chaque cadre individuellement, générant ainsi une multitude d’informations redondantes, car la plupart des cadres présentent peu de changements significatifs. Cela peut facilement dépasser la fenêtre contextuelle maximale du modèle, occasionnant ainsi des pertes d’informations au fur et à mesure de l’analyse.

Étude d’Apple

L’étude d’Apple, présentée dans le SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding, explore comment les modèles actuels s’appuient trop sur de longues fenêtres contextuelles et un nombre élevé de cadres, rendant l’adaptation à des modèles plus petits difficile. De plus, ils requièrent souvent des pipelines d’entraînement complexes et optimisés exclusivement pour des tâches vidéo, limitant leur usage.

Apple a optimisé SlowFast-LLaVA en combinant des indices spatiaux et temporels, avec un flux lent couvrant moins de cadres en détail et un flux rapide couvrant plus de cadres en détail réduit. Ce modèle, après affinage, a été testé avec succès sur des images et vidéos provenant de jeux de données publics.

Le résultat est le SlowFast-LLaVA-1.5, un modèle disponible sous trois tailles (1B, 3B et 7B paramètres) qui surpasse des modèles bien plus grands dans diverses tâches vidéo.

Limitations et perspectives

Le modèle SF-LLaVA-1.5, bien qu’innovant, se limite à un maximum de 128 cadres d’entrée. Ce choix peut conduire à des omissions de cadres clés dans des vidéos longues. Les chercheurs d’Apple notent que des optimisations ultérieures en matière d’économie de mémoire, comme le Stochastic BP, pourraient améliorer ses performances.

Malgré ces limites, le modèle demeure un outil de pointe, entraîné exclusivement sur des jeux de données publics. Pour les curieux, SF-LLaVA-1.5 est accessible en open-source sur GitHub et Hugging Face.

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Previous ArticleApple accuse un ex-ingénieur de l’Apple Watch de fuite vers Oppo
Next Article Apple se prépare à révolutionner l’IA en entreprise au-delà de ChatGPT
Léon Galarneau

Rédacteur occasionnel sur AppSystem, je cultive une réelle passion pour les mangas, le tennis et l'univers Apple.

Related Posts

watchOS 27 miserait sur la précision cardiaque, l’agent santé « Mulberry » attendu plus tard sur iOS 27

24 mai 2026

iOS 27 : les modèles d’images d’Apple Intelligence annoncés en nette hausse de qualité

24 mai 2026

iOS 27 : Apple préparerait l’ouverture d’AirPlay à Google Cast au niveau système

24 mai 2026
Leave A Reply Cancel Reply

coque iphone la plus fine du monde

Top 3

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

13 mai 2026

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

3 avril 2026

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

28 janvier 2026
Suivez-nous
  • Facebook 15K
  • Twitter
Facebook X (Twitter)
  • À propos
  • Contact
  • Publicité

Nos sites : ShopSystem • App4Phone

Copyright © 2026 AppSystem. Publié depuis 2008.

bannière app store

Apple, le logo Apple, iPod, iTunes et Mac sont des marques d’Apple Inc., déposées aux États-Unis et dans d’autres pays. iPhone et MacBook Air sont des marques déposées d’Apple Inc. MobileMe est une marque de service d’Apple Inc. AppSystem.fr et son App ne sont pas liés à Apple et les marques citées sont la propriété de leurs détenteurs respectifs.

Type above and press Enter to search. Press Esc to cancel.