LiTo : Apple présente un modèle d’IA capable de recréer un objet 3D et ses reflets à partir d’une seule image

Des chercheurs d’Apple ont mis au point un modèle d’IA capable de reconstruire un objet en 3D à partir d’une image unique, tout en conservant des effets d’éclairage réalistes — reflets, brillances spéculaires et variations liées à l’angle de vue.

Contexte : le rôle de l’espace latent

La notion d’« espace latent » (ou espace d’embedding) s’est imposée comme un élément central de nombreux modèles modernes. L’idée consiste à convertir des informations en représentations numériques compactes, organisées dans un espace multidimensionnel, afin de mesurer des proximités et de faciliter la génération de contenu.

Si cette approche est souvent illustrée avec du texte, le même principe s’applique à d’autres données — notamment des images et, dans ce cas précis, des indices utiles à la reconstruction 3D.

LiTo : géométrie et apparence dépendante du point de vue

Dans une étude intitulée LiTo: Surface Light Field Tokenization, Apple décrit une « représentation 3D en espace latent » qui modélise conjointement la géométrie d’un objet et son apparence dépendante de la direction d’observation. Objectif : reproduire des effets réalistes qui changent selon l’angle, comme les reflets de type Fresnel ou les rehauts spéculaires, là où nombre d’approches se limitent à une apparence diffuse, dite indépendante du point de vue.

Principe de fonctionnement

Encodage : un encodeur compresse l’information de l’objet dans un ensemble réduit de vecteurs latents, résumant à la fois la forme et la manière dont la lumière interagit avec la surface.
Décodage : un décodeur reconstruit ensuite l’objet 3D et génère une apparence cohérente selon différents angles de vue, en intégrant les variations d’éclairage.

L’élément notable du travail présenté est la capacité à obtenir ce résultat à partir d’une seule image, alors que les méthodes classiques s’appuient fréquemment sur plusieurs vues pour reconstruire la géométrie.

Entraînement : vues multiples, éclairages variés, sous-échantillonnage

Pour l’entraînement, les chercheurs ont utilisé des milliers d’objets rendus depuis 150 angles de vue différents, sous trois conditions d’éclairage. Plutôt que d’ingérer systématiquement l’ensemble des données, le système sélectionne aléatoirement de petits sous-ensembles d’échantillons, les compresse en espace latent, puis entraîne le décodeur à reconstruire l’objet complet et son apparence à travers les angles et éclairages.

Une fois cette représentation apprise, un autre modèle est entraîné à prédire, à partir d’une image unique, le code latent correspondant. Le décodeur peut alors régénérer l’objet 3D, ainsi que la manière dont son rendu varie avec le point de vue.

Le projet public d’Apple, avec des comparaisons (notamment face à un modèle nommé TRELLIS), est accessible ici : apple.github.io/ml-lito. L’article scientifique complet est disponible sur arXiv : arxiv.org/abs/2603.11047.

LiTo : Apple présente un modèle d’IA capable de recréer un objet 3D et ses reflets à partir d’une seule image

Contexte : le rôle de l’espace latent

LiTo : géométrie et apparence dépendante du point de vue

Principe de fonctionnement

Entraînement : vues multiples, éclairages variés, sous-échantillonnage

Procès antitrust de l’iPhone : Apple veut contraindre Washington à livrer des documents de 14 agences

watchOS 27 miserait sur la précision cardiaque, l’agent santé « Mulberry » attendu plus tard sur iOS 27

iOS 27 : les modèles d’images d’Apple Intelligence annoncés en nette hausse de qualité

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

LiTo : Apple présente un modèle d’IA capable de recréer un objet 3D et ses reflets à partir d’une seule image

Contexte : le rôle de l’espace latent

LiTo : géométrie et apparence dépendante du point de vue

Principe de fonctionnement

Entraînement : vues multiples, éclairages variés, sous-échantillonnage

Related Posts

Procès antitrust de l’iPhone : Apple veut contraindre Washington à livrer des documents de 14 agences

watchOS 27 miserait sur la précision cardiaque, l’agent santé « Mulberry » attendu plus tard sur iOS 27

iOS 27 : les modèles d’images d’Apple Intelligence annoncés en nette hausse de qualité

iOS 26.5 ajoute un nouveau fond d’écran Pride Luminance sur iPhone, entièrement personnalisable

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2