Apple SHARP : Générateur 3D à partir d'une photo

Apple dévoile SHARP, une approche d’IA capable de reconstruire en moins d’une seconde une vue 3D photoréaliste à partir d’une seule image. Les détails sont décrits dans l’étude Sharp Monocular View Synthesis in Less Than a Second, et le code est disponible sur le dépôt GitHub de SHARP.

Présenté mi-décembre 2025, SHARP s’appuie sur une représentation de scène en « 3D Gaussians » avec échelle absolue, rendue en temps réel.

Ce que fait SHARP

Reconstruit une scène 3D métrique (échelle absolue) à partir d’une seule photo.
Inférence en moins d’une seconde sur un GPU standard via une seule passe réseau.
Rendu temps réel de vues proches en haute résolution.
Généralisation robuste en zero-shot sur plusieurs jeux de données.
Nouvel état de l’art : LPIPS réduit de 25 à 34 % et DISTS de 21 à 43 % face aux meilleures méthodes précédentes, avec un temps de synthèse réduit de trois ordres de grandeur.

Comment ça marche

La scène est modélisée par des « Gaussiens 3D » — de petites entités floues de couleur et de lumière positionnées dans l’espace. Agrégées par millions, elles reconstituent un point de vue en 3D.

Là où les méthodes de « Gaussian splatting » requièrent d’ordinaire des dizaines d’images capturées sous différents angles, SHARP prédit l’ensemble de la scène en un seul passage. Entraîné sur des données synthétiques et réelles, le réseau estime la profondeur, la raffine, puis prédit en bloc la position et l’apparence de millions de Gaussiens.

Limites et performances

SHARP privilégie les vues proches du point de prise de vue, plutôt que la synthèse de parties totalement invisibles. Ce choix assure vitesse et stabilité, tout en permettant des mouvements de caméra métriques cohérents.

Code et ressources

L’étude est disponible sur arXiv et le projet sur GitHub.

Réactions de la communauté

Des démonstrations partagées sur X illustrent les résultats obtenus avec SHARP :

QuestGlitch met en avant la génération photoréaliste de représentations 3D à partir d’une seule image.
Tim Davison ᯅ salue la qualité des résultats présentés par Apple.
Gero Gerber ᯅ partage un aperçu du modèle et de ses sorties.
Damyr Hadiiev rapporte une exécution sur puce M3 et un rendu écrit en three.js pour se passer de CUDA.
Arun Kurian montre une conversion « single image to splat » en quelques secondes dans l’app AirVis.
VisualitoXr explore une extension vers la vidéo monoculaire (monocular video → 4DGS) dans un éditeur dédié.

Apple présente SHARP, un modèle en libre accès pour générer des vues 3D depuis une seule photo

Ce que fait SHARP

Comment ça marche

Limites et performances

Code et ressources

Réactions de la communauté

M5 Pro et M5 Max : Apple détaille l’arrivée de trois catégories de cœurs CPU

Siri dopée à Gemini : une première vague de fonctions encore possible fin mars

iOS 27 : date de sortie, priorités de stabilité et nouvelles pistes Apple Intelligence

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

tvOS 26.4 introduit une option audio « Continuous Audio Connection » sur Apple TV

Comment rechercher du texte dans une page web sur Safari iPhone et iPad ?

Apple présente SHARP, un modèle en libre accès pour générer des vues 3D depuis une seule photo

Ce que fait SHARP

Comment ça marche

Limites et performances

Code et ressources

Réactions de la communauté

Related Posts

M5 Pro et M5 Max : Apple détaille l’arrivée de trois catégories de cœurs CPU

Siri dopée à Gemini : une première vague de fonctions encore possible fin mars

iOS 27 : date de sortie, priorités de stabilité et nouvelles pistes Apple Intelligence

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

tvOS 26.4 introduit une option audio « Continuous Audio Connection » sur Apple TV

Comment rechercher du texte dans une page web sur Safari iPhone et iPad ?