NeRF (Neural Radiance Field)

NeRF (Neural Radiance Field) est une technique de représentation 3D qui utilise un réseau de neurones (MLP) pour encoder une scène sous forme de champ de radiance volumétrique continu. À partir d’un ensemble de photos 2D avec leurs poses de caméra, NeRF apprend à prédire la couleur et la densité de chaque point dans l’espace 3D, permettant de synthétiser des vues photoréalistes de la scène sous n’importe quel angle jamais photographié (synthèse de vues nouvelles).

Nom complet: Neural Radiance Field
Créateurs: Ben Mildenhall, Pratul Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
Publication: ECCV 2020 (Best Honorable Mention)
Entrée: Coordonnée 5D : position (x, y, z) + direction de vue (θ, φ)
Sortie: Couleur RGB (r, g, b) + densité volumétrique (σ)
Architecture: MLP (8 couches cachées, 256 neurones, skip connection à la couche 5)
Successeur principal: 3D Gaussian Splatting (2023)
Code: github.com/bmild/nerf

Le principe de NeRF

L’idée fondamentale de NeRF est de représenter une scène 3D comme une fonction continue qui, pour chaque point de l’espace et chaque direction de vue, retourne une couleur et une densité. Cette fonction est approximée par un réseau de neurones (MLP) optimisé pour reproduire les images d’entraînement.

Formellement, NeRF encode la fonction suivante : F(x, y, z, θ, φ) → (r, g, b, σ), où (x, y, z) est la position 3D, (θ, φ) est la direction de vue, (r, g, b) est la couleur émise, et σ est la densité volumétrique (qui détermine l’opacité).

La densité σ ne dépend que de la position (un objet solide est solide quel que soit l’angle de vue), tandis que la couleur dépend aussi de la direction (un objet brillant a des reflets qui changent selon l’angle). Cette asymétrie est encodée dans l’architecture du MLP.

Architecture et entraînement

Le réseau MLP

Le MLP de NeRF comporte 8 couches cachées de 256 neurones chacune avec activation ReLU. Une connexion résiduelle (skip connection) à la 5e couche concatène l’entrée encodée avec les activations, facilitant le flux de gradient. Le réseau produit d’abord la densité σ et un vecteur de features de 256 dimensions. Ce vecteur est ensuite concaténé avec la direction de vue encodée et passe dans une couche supplémentaire pour produire la couleur RGB.

Encodage positionnel

Les coordonnées brutes (x, y, z) et les directions (θ, φ) sont transformées via un encodage positionnel de Fourier avant d’être passées au MLP. Cet encodage projette les coordonnées dans un espace de haute dimension en utilisant des fonctions sinus et cosinus à différentes fréquences.

Sans cet encodage, le MLP tend à produire des résultats flous (biais spectral vers les basses fréquences). L’encodage positionnel permet au réseau de capturer les détails fins (textures, arêtes, motifs) qui nécessitent des composantes haute fréquence.

Rendu volumétrique différentiable

Pour produire une image 2D à partir du champ de radiance, NeRF utilise le rendu volumétrique classique. Pour chaque pixel de l’image à rendre, un rayon est tracé depuis la caméra à travers la scène. Le long de ce rayon, N points sont échantillonnés. Pour chaque point, le MLP prédit la couleur et la densité. La couleur finale du pixel est une intégrale pondérée des couleurs le long du rayon, où les poids dépendent de la densité (les points dans les objets opaques contribuent plus que les points dans l’air).

Ce processus est entièrement différentiable, ce qui permet d’optimiser le MLP par descente de gradient. La loss est simplement l’erreur quadratique entre les pixels rendus et les pixels réels des images d’entraînement.

Échantillonnage hiérarchique

Échantillonner uniformément le long de chaque rayon est inefficace : la majorité des points sont dans l’air vide. NeRF utilise un échantillonnage hiérarchique en deux passes. Un réseau « coarse » (grossier) est d’abord évalué sur des points uniformément répartis. Ses prédictions de densité identifient les régions susceptibles de contenir de la matière. Un réseau « fine » (fin) est ensuite évalué sur des points concentrés dans ces régions, produisant un rendu plus précis avec le même budget de calcul.

L’évolution de NeRF (2020-2025)

Accélération de l’entraînement et du rendu

Le NeRF original nécessitait 1 à 2 jours d’entraînement sur un GPU et rendait les images en quelques secondes (pas en temps réel). Plusieurs travaux ont adressé ce problème.

Instant-NGP (NVIDIA, 2022). Utilise un encodage par hash table multi-résolution au lieu de l’encodage positionnel, permettant un entraînement en quelques secondes et un rendu en temps réel. C’est un changement de paradigme en termes de vitesse.

Plenoctrees / SNeRG. « Cuire » le NeRF entraîné dans une grille de voxels sparse pour un rendu temps réel, en éliminant les requêtes MLP coûteuses.

TensoRF (2022). Représente le champ de radiance comme une décomposition tensorielle (au lieu d’un MLP pur), réduisant le temps d’entraînement et le coût mémoire.

Amélioration de la qualité

Mip-NeRF (Google, 2021). Résout les problèmes d’aliasing en utilisant des cônes au lieu de rayons, et en raisonnant sur des volumes (frusta) plutôt que des points. Produit des images nettes à toutes les distances de vue.

Mip-NeRF 360 (Google, 2022). Étend mip-NeRF aux scènes non bornées (extérieurs, 360°) avec une paramétrisation de l’espace qui gère les arrière-plans à l’infini.

NeRF in the Wild (Google, 2021). Gère les variations d’éclairage et les objets transitoires (passants, voitures) entre les images d’entraînement, permettant de reconstruire des scènes à partir de photos prises à des moments différents.

Généralisation et few-shot

PixelNeRF (2021). Conditionne le NeRF sur des features extraites par un CNN depuis les images d’entrée, permettant de synthétiser des vues à partir d’une seule image (sans optimisation per-scène).

Nerfstudio. Framework open source qui simplifie l’entraînement et l’évaluation de variantes NeRF. Devenu l’outil de référence pour la recherche et le prototypage NeRF.

NeRF vs. Gaussian Splatting

En 2023, le 3D Gaussian Splatting a émergé comme alternative majeure à NeRF. Voici une comparaison directe :

Critère	NeRF	Gaussian Splatting
Représentation	Implicite (MLP continu)	Explicite (millions de gaussiennes 3D)
Rendu	Ray marching (lent)	Splatting rasterisé (rapide)
Temps d’entraînement	Minutes à heures	Minutes
Rendu temps réel	Difficile (sauf Instant-NGP)	Natif (>100 fps)
Qualité visuelle	Excellent	Excellent (comparable ou supérieur)
Édition	Difficile (représentation implicite)	Plus facile (points manipulables)
Compatibilité pipeline 3D	Faible (pas de mesh natif)	Moyenne (convertible en mesh)
Mémoire	Compacte (quelques Mo de poids MLP)	Élevée (millions de points)

Verdict. Le Gaussian Splatting a largement remplacé NeRF pour les applications de synthèse de vues nouvelles en temps réel. Cependant, NeRF reste pertinent dans plusieurs contextes : comme représentation compacte de scènes (le MLP pèse quelques Mo vs. des centaines de Mo pour les gaussiennes), pour les applications nécessitant une représentation continue (interpolation de coordonnées arbitraires), et comme composant dans les pipelines de text-to-3D (DreamFusion utilise un NeRF comme représentation optimisable).

Limites de NeRF

Temps d’entraînement. Le NeRF original nécessite 1 à 2 jours d’entraînement sur un seul GPU pour une scène. Instant-NGP (NVIDIA) a réduit ce temps à quelques secondes, mais au prix d’une consommation mémoire accrue. Le compromis vitesse/mémoire/qualité reste un axe de recherche actif.

Rendu lent. Le rendu par ray marching (marche de rayons) est intrinsèquement plus lent que la rasterisation traditionnelle. Chaque pixel nécessite l’évaluation du MLP en des dizaines de points le long du rayon correspondant. Même avec les optimisations (Instant-NGP, SNeRG), le rendu NeRF n’atteint pas les performances du Gaussian Splatting pour le temps réel.

Représentation implicite. Le fait que la scène soit « cachée » dans les poids du MLP rend NeRF difficile à éditer (déplacer un objet, changer une couleur, supprimer un élément). Pour les workflows d’artistes 3D qui manipulent des meshes et des textures, NeRF est inadapté sans conversion préalable.

Scènes statiques uniquement (version originale). Le NeRF de base encode une scène figée. Les objets en mouvement, les changements d’éclairage et les déformations nécessitent des extensions spécialisées (D-NeRF pour les scènes dynamiques, NeRF-W pour les variations d’apparence).

Dépendance aux poses de caméra. NeRF suppose des poses de caméra précises en entrée. Des erreurs de calibration produisent des artefacts (flou, dédoublements). BARF (Bundle-Adjusting NeRF) optimise conjointement les poses et la scène, mais ajoute de la complexité.

Scènes non bornées. Le NeRF original travaille dans un volume 3D borné. Les scènes extérieures (paysages, vues à 360°) nécessitent une paramétrisation spéciale de l’espace (Mip-NeRF 360) pour gérer les arrière-plans à distance infinie.

Le positionnement de NeRF en 2026

Depuis l’apparition du 3D Gaussian Splatting en 2023, le paysage de la reconstruction 3D neurale a évolué. NeRF n’est plus la méthode dominante pour la synthèse de vues nouvelles en temps réel, mais il conserve des avantages structurels dans certains contextes.

Compacité. Un NeRF encode une scène entière dans quelques mégaoctets de poids de réseau. Une scène en Gaussian Splatting peut peser plusieurs centaines de mégaoctets (millions de gaussiennes avec leurs attributs). Pour le streaming, le stockage et la distribution de scènes 3D, la compacité de NeRF est un avantage.

Représentation continue. NeRF fournit une valeur pour n’importe quelle coordonnée continue (x, y, z), pas seulement aux positions discrètes des gaussiennes. Cette propriété est utile pour les applications nécessitant une interpolation fine ou un échantillonnage à résolution variable.

Fondation théorique. Le cadre conceptuel de NeRF (champ neural + rendu volumétrique différentiable) est devenu un paradigme fondamental en vision 3D. Les concepts d’encodage positionnel, de représentation implicite par MLP, et de supervision par images 2D se retrouvent dans de nombreux travaux bien au-delà de la synthèse de vues (reconstruction de surfaces avec NeuS, estimation de profondeur, text-to-3D).

Recherche active. Un survey complet couvrant 2020-2025 recense des centaines de variantes de NeRF et méthodes dérivées. Même dans l’ère post-Gaussian Splatting, les méthodes basées sur des champs neuraux implicites et le rendu volumétrique continuent d’être publiées, souvent sous les termes « neural field » ou « neural representation » plutôt que « NeRF » stricto sensu.

Essayer NeRF facilement Pour expérimenter sans installation complexe, Luma AI et Polycam proposent des apps mobiles gratuites qui capturent une scène vidéo et la reconstruisent automatiquement en NeRF ou Gaussian Splatting. Sur desktop, Nerfstudio offre un framework complet avec visualiseur web interactif.

Applications

Synthèse de vues nouvelles. L’application originale et la plus directe : reconstruire une scène à partir de photos et la visualiser sous des angles arbitraires. Utilisé en réalité virtuelle, en exploration immersive de lieux (Google Maps, visites immobilières), et en production vidéo (effets « bullet time », replays sportifs multi-angles).

Text-to-3D. DreamFusion (Google, 2022) et ses successeurs utilisent NeRF comme représentation 3D optimisable, guidée par un modèle de diffusion 2D via Score Distillation Sampling. Le NeRF sert de « toile vierge » 3D que le modèle de diffusion « peint » sous tous les angles. C’est l’application qui a donné une seconde vie à NeRF après l’émergence du Gaussian Splatting.

Reconstruction architecturale et immobilier. Numérisation de bâtiments, visites virtuelles photoréalistes, et documentation de patrimoine culturel (sites historiques, musées). La capacité de NeRF à capturer les reflets et les transparences le rend particulièrement adapté aux intérieurs avec des surfaces vitrées ou métalliques.

Robotique et navigation autonome. Les représentations NeRF d’environnements permettent la planification de trajectoires pour les drones et robots. Le modèle 3D implicite fournit une compréhension dense de l’espace de navigation (obstacles, surfaces, dégagements) à partir de quelques images. Des travaux récents combinent NeRF avec des modèles de langage pour permettre la navigation robotique guidée par des instructions textuelles (« va vers la chaise rouge à côté de la fenêtre »).

Effets visuels et cinéma. Création d’environnements numériques, extension de décors filmés, et génération de prises de vue impossibles physiquement. Netflix et d’autres studios explorent l’utilisation de NeRF pour réduire les coûts de production de contenus immersifs.

E-commerce. Visualisation de produits à 360° à partir de quelques photos, permettant aux clients de tourner autour d’un objet dans un navigateur web. Particulièrement utile pour le mobilier, la mode et les produits de luxe.

Imagerie médicale. Reconstruction 3D de structures anatomiques à partir d’un nombre limité de coupes (CT scans, IRM), avec interpolation des vues manquantes. NeRF permet de réduire la dose de radiation en reconstruisant des volumes à partir de moins d’acquisitions. Des travaux récents explorent aussi l’utilisation de NeRF pour la planification chirurgicale et la formation médicale, en offrant des vues anatomiques interactives à partir de données patient réelles.

L’héritage de NeRF NeRF a déclenché une révolution en représentation neuronale 3D. Avec plus de 10 000 citations depuis sa publication en 2020, c’est l’un des travaux les plus influents de la décennie en vision par ordinateur. Même si le Gaussian Splatting l’a partiellement supplanté pour le rendu temps réel, les concepts fondamentaux de NeRF (représentation implicite par réseau de neurones, rendu volumétrique différentiable, encodage positionnel) ont profondément marqué le domaine.

Questions fréquentes sur NeRF

Combien de photos faut-il pour entraîner un NeRF ?

Le NeRF original nécessite typiquement 50 à 200 photos avec des poses de caméra connues. Des variantes comme PixelNeRF fonctionnent avec une seule image, mais avec une qualité réduite. En pratique, 20 à 50 photos bien distribuées autour de la scène donnent des résultats exploitables. Les poses de caméra sont généralement estimées par Structure-from-Motion (COLMAP) à partir des photos elles-mêmes.

NeRF est-il encore utilisé ou a-t-il été remplacé par le Gaussian Splatting ?

Le Gaussian Splatting a supplanté NeRF pour les applications de rendu temps réel. Cependant, NeRF et ses variantes restent utilisés pour la représentation compacte de scènes, le text-to-3D (DreamFusion), la recherche fondamentale en représentation neuronale 3D, et les cas nécessitant une représentation continue (vs. discrète). Le terme « NeRF » est aussi devenu un terme générique pour désigner les techniques de rendu neural volumétrique.

Peut-on exporter un NeRF en mesh 3D ?

Oui, mais avec des compromis. L’algorithme Marching Cubes extrait une surface isodensité du champ de densité du NeRF, produisant un mesh texturé. DreamFusion utilise cette technique pour exporter ses modèles 3D. Cependant, les meshes extraits sont souvent bruités et nécessitent un post-traitement (lissage, simplification). NeuS et ses variantes améliorent la qualité d’extraction en utilisant des signed distance functions (SDF) au lieu de la densité volumétrique.

Quelle est la différence entre NeRF et la photogrammétrie ?

La photogrammétrie traditionnelle (Meshroom, RealityCapture) reconstruit explicitement un mesh 3D avec des textures à partir de photos. NeRF apprend une représentation implicite continue et synthétise des images par rendu volumétrique. NeRF produit souvent des résultats visuellement supérieurs (meilleurs reflets, transparences, fumée), mais la photogrammétrie produit des meshes directement utilisables dans les logiciels 3D. En pratique, les deux approches sont complémentaires.

Quel framework utiliser pour essayer NeRF ?

Nerfstudio est le framework de référence pour expérimenter avec NeRF et ses variantes. Il offre une interface en ligne de commande et un visualiseur web interactif, supportant des méthodes comme Instant-NGP, Nerfacto, et même le Gaussian Splatting. Pour un démarrage rapide, Luma AI et Polycam proposent des apps mobiles qui capturent et reconstruisent des scènes NeRF/Gaussian Splatting directement depuis un smartphone.