
Le département de machine learning d’Apple, en collaboration avec des chercheurs de l’Université de Nankin et de l’Université des Sciences et Technologies de Hong Kong, a annoncé un modèle 3D innovant baptisé Matrix3D.
Ce modèle de photogrammétrie avancé est capable de reconstruire des objets et des scènes 3D à partir de quelques photos en 2D, mais cette fois-ci sans les complications habituelles des pipelines traditionnels.
Photogrammétrie simplifiée
La photogrammétrie utilise des photographies pour prendre des mesures afin de créer des modèles ou cartes 3D. Aujourd’hui, ce processus nécessite l’application de différents modèles pour l’estimation de pose et la prédiction de profondeur, ce qui peut causer des erreurs.
Matrix3D élimine ces complications en unifiant le workflow. Il fonctionne à partir d’images, de paramètres de caméra (comme l’angle et la longueur focale) et de données de profondeur, tout en maintenant une architecture unifiée améliorant la précision.
Un apprentissage inspiré des Transformers
Le modèle a été entraîné avec une stratégie d’apprentissage masqué, similaire aux premiers systèmes d’IA basés sur les Transformers. Ce procédé oblige Matrix3D à combler les lacunes lors de l’apprentissage, optimisant sa capacité avec des ensembles de données réduits ou incomplets.
Les résultats sont impressionnants : avec seulement trois images, Matrix3D peut générer des reconstructions 3D détaillées d’objets et d’environnements entiers, ouvrant la voie à des applications fascinantes pour des casques immersifs tels que l’Apple Vision Pro.
Les chercheurs ont mis à disposition le code source de Matrix3D sur GitHub et ont publié leur étude sur arXiv. Un site web interactif a également été créé où vous pouvez visionner des vidéos d’exemples et interagir avec des reconstitutions de nuages de points sur ce site.