
Apple dévoile SHARP, une approche d’IA capable de reconstruire en moins d’une seconde une vue 3D photoréaliste à partir d’une seule image. Les détails sont décrits dans l’étude Sharp Monocular View Synthesis in Less Than a Second, et le code est disponible sur le dépôt GitHub de SHARP.
Présenté mi-décembre 2025, SHARP s’appuie sur une représentation de scène en « 3D Gaussians » avec échelle absolue, rendue en temps réel.
Ce que fait SHARP
- Reconstruit une scène 3D métrique (échelle absolue) à partir d’une seule photo.
- Inférence en moins d’une seconde sur un GPU standard via une seule passe réseau.
- Rendu temps réel de vues proches en haute résolution.
- Généralisation robuste en zero-shot sur plusieurs jeux de données.
- Nouvel état de l’art : LPIPS réduit de 25 à 34 % et DISTS de 21 à 43 % face aux meilleures méthodes précédentes, avec un temps de synthèse réduit de trois ordres de grandeur.
Comment ça marche
La scène est modélisée par des « Gaussiens 3D » — de petites entités floues de couleur et de lumière positionnées dans l’espace. Agrégées par millions, elles reconstituent un point de vue en 3D.
Là où les méthodes de « Gaussian splatting » requièrent d’ordinaire des dizaines d’images capturées sous différents angles, SHARP prédit l’ensemble de la scène en un seul passage. Entraîné sur des données synthétiques et réelles, le réseau estime la profondeur, la raffine, puis prédit en bloc la position et l’apparence de millions de Gaussiens.
Limites et performances
SHARP privilégie les vues proches du point de prise de vue, plutôt que la synthèse de parties totalement invisibles. Ce choix assure vitesse et stabilité, tout en permettant des mouvements de caméra métriques cohérents.
Code et ressources
L’étude est disponible sur arXiv et le projet sur GitHub.
Réactions de la communauté
Des démonstrations partagées sur X illustrent les résultats obtenus avec SHARP :
- QuestGlitch met en avant la génération photoréaliste de représentations 3D à partir d’une seule image.
- Tim Davison ᯅ salue la qualité des résultats présentés par Apple.
- Gero Gerber ᯅ partage un aperçu du modèle et de ses sorties.
- Damyr Hadiiev rapporte une exécution sur puce M3 et un rendu écrit en three.js pour se passer de CUDA.
- Arun Kurian montre une conversion « single image to splat » en quelques secondes dans l’app AirVis.
- VisualitoXr explore une extension vers la vidéo monoculaire (monocular video → 4DGS) dans un éditeur dédié.