Sensor Fusion (Fusion de capteurs)

La sensor fusion (fusion de capteurs) est le processus d’intégration des données issues de plusieurs capteurs de types différents pour produire une représentation unifiée et plus fiable de l’environnement qu’aucun capteur seul ne pourrait fournir.

Catégorie: Perception multi-modale / Traitement de signaux
Principe: Combiner des sources complémentaires pour réduire l’incertitude
Capteurs typiques: Caméras, LiDAR, radar, ultrasons, IMU, GNSS
Niveaux de fusion: Early (données brutes), Mid (features), Late (décisions)
Secteurs: Automobile autonome, robotique, drones, smartphone, industrie, défense
Acteurs clés: NVIDIA, Qualcomm, Bosch, Continental, Mobileye, Aptiv, NXP
Marché: ~7-8 Mds $ en 2025, croissance de 15 à 20 % par an

Pourquoi la sensor fusion est indispensable

Aucun capteur n’est parfait. Une caméra est aveugle dans l’obscurité. Un LiDAR ne voit pas les couleurs. Un radar ne distingue pas un piéton d’un panneau de signalisation. Chaque modalité de capteur a des forces et des faiblesses intrinsèques, liées à son principe physique. La sensor fusion existe pour exploiter la complémentarité de ces capteurs et compenser leurs limites individuelles.

Dans un véhicule autonome, la perception est le fondement de toute décision. Un système qui ne perçoit pas correctement son environnement ne peut pas naviguer en sécurité, quels que soient la puissance de son logiciel de planification ou la sophistication de ses algorithmes de contrôle. La sensor fusion transforme des flux de données partiels et bruités en une représentation cohérente du monde réel : position des véhicules, piétons, cyclistes, état de la chaussée, signalisation.

Le principe vaut bien au-delà de l’automobile. Les drones combinent GPS, IMU, baromètre et caméra pour se stabiliser. Les smartphones fusionnent accéléromètre, gyroscope et magnétomètre pour connaître leur orientation. Les robots d’entrepôt fusionnent LiDAR et odométrie pour naviguer. La fusion de capteurs est omniprésente dans tout système qui doit percevoir le monde physique.

Les capteurs et leurs complémentarités

Avant de comprendre comment fusionner des données, il faut comprendre ce que chaque capteur apporte et où il échoue. Voici les modalités les plus courantes dans les systèmes autonomes :

Capteur	Mesure principale	Forces	Faiblesses	Fréquence typique
Caméra (visible)	Images 2D, couleur, texture	Riche en sémantique, détection de panneaux/feux, bon marché	Pas de mesure directe de distance, sensible à l’éclairage	30-60 Hz
LiDAR	Nuage de points 3D, distance précise	Précision géométrique, fonctionne de nuit	Pas de couleur, dégradé par la pluie/brouillard, coûteux	10-20 Hz
Radar	Distance et vitesse radiale (Doppler)	Fonctionne par tous temps, mesure directe de vitesse	Résolution angulaire faible, faux positifs sur métal	20-80 Hz
Ultrasons	Distance courte portée (<5 m)	Très fiable à courte distance, faible coût	Portée très limitée, basse résolution	40-60 Hz
IMU (Inertial Measurement Unit)	Accélération, rotation, orientation	Très haute fréquence, indépendant de l’environnement	Dérive cumulative dans le temps	100-1000 Hz
GNSS (GPS)	Position absolue	Référence de localisation globale	Précision limitée (1-3 m), perte de signal en tunnel/centre-ville	1-10 Hz

La clé est dans la complémentarité. Le LiDAR fournit la géométrie 3D précise que la caméra ne peut pas mesurer directement. La caméra fournit la couleur et la sémantique (texte des panneaux, couleur des feux) que le LiDAR ne capture pas. Le radar fournit la vitesse instantanée et la résilience météo que ni le LiDAR ni la caméra n’offrent. L’IMU fournit la dynamique du véhicule entre deux mesures GPS. Chaque capteur comble les lacunes des autres.

Le débat « camera-only » vs. fusion multi-capteurs Tesla a longtemps défendu une approche « camera-only » (caméras + radar, puis caméras seules). La quasi-totalité du reste de l’industrie automobile (Mercedes, BMW, Volvo, NIO, Rivian, Waymo, Cruise, etc.) a adopté la fusion multi-capteurs incluant le LiDAR. Le consensus technique en 2026 est clair : la redondance capteur est essentielle pour la sécurité fonctionnelle des systèmes de niveau 3 et au-delà.

Les trois niveaux de fusion

Il existe trois approches architecturales fondamentales pour fusionner les données de capteurs différents. Chacune opère à un niveau d’abstraction différent et présente des compromis distincts.

Early Fusion (fusion au niveau des données brutes)

L’early fusion combine les données brutes de différents capteurs avant tout traitement significatif. Par exemple, on projette les points LiDAR sur l’image caméra pour créer une image « enrichie en profondeur », ou on associe des pixels caméra à des voxels LiDAR dans un espace commun.

L’avantage principal est de préserver toute l’information originale : rien n’est perdu lors d’un pré-traitement séparé. Le réseau de neurones reçoit les données les plus riches possibles et peut apprendre des corrélations inter-capteurs fines.

L’inconvénient est la complexité. Les capteurs ont des formats, des résolutions et des fréquences très différents (une caméra produit des images 2D à 30 Hz, un LiDAR produit un nuage de points 3D à 10 Hz, un radar fonctionne à 80 Hz). Aligner spatialement et temporellement ces flux hétérogènes est un défi technique majeur. Les erreurs de calibration se propagent directement dans la fusion.

Mid Fusion (fusion au niveau des features)

La mid fusion (ou feature-level fusion) est l’approche dominante dans la recherche actuelle. Chaque capteur passe d’abord par son propre réseau d’extraction de caractéristiques (backbone) : un CNN pour les images, un réseau de type PointPillars ou VoxelNet pour le LiDAR, un réseau dédié pour le radar. Les features extraites sont ensuite transformées dans un espace de représentation commun, typiquement une vue BEV (Bird’s Eye View, vue de dessus), puis fusionnées.

L’architecture BEVFusion, publiée par le MIT et NVIDIA, est devenue la référence dans ce domaine. Elle unifie les features caméra et LiDAR dans un espace BEV partagé, préservant à la fois l’information géométrique du LiDAR et la densité sémantique de la caméra. Ses résultats sur le benchmark nuScenes ont établi un nouveau standard, avec une amélioration de plus de 13 % en segmentation BEV par rapport aux méthodes précédentes, tout en réduisant le coût de calcul.

Pourquoi la vue BEV domine La vue « à vol d’oiseau » (Bird’s Eye View) est devenue l’espace de fusion standard parce qu’elle résout un problème fondamental : dans l’espace BEV, un véhicule détecté par la caméra et le même véhicule détecté par le LiDAR se trouvent exactement à la même position. Pas besoin de gérer les distorsions de perspective. C’est le « terrain commun » naturel pour aligner des capteurs hétérogènes.

Les architectures récentes utilisent des Transformers pour la fusion inter-modale. TransFusion et FusionAD appliquent une fusion token-level dans l’espace BEV, avec des mécanismes d’attention croisée (cross-attention) qui permettent à chaque modalité de « questionner » les features de l’autre. Le Cross-Modal Transformer (CMT) prend une approche différente en utilisant des requêtes positionnelles unifiées pour agréger les features caméra et nuage de points, optimisant l’efficacité de calcul pour le déploiement embarqué.

Late Fusion (fusion au niveau des décisions)

La late fusion traite chaque capteur indépendamment jusqu’à produire des détections (bounding boxes, classifications). Les résultats de chaque pipeline sont ensuite fusionnés : si la caméra détecte un piéton et le LiDAR détecte un objet au même endroit, le système confirme la détection avec une confiance élevée.

L’avantage est la modularité : chaque pipeline de capteur peut être développé, testé et mis à jour indépendamment. En cas de panne d’un capteur, les autres continuent de fonctionner. C’est aussi l’approche la plus simple à certifier pour la sécurité fonctionnelle (ISO 26262).

L’inconvénient est la perte d’information. Chaque pipeline fait ses propres erreurs de manière indépendante, et les corrélations inter-capteurs au niveau des données brutes sont perdues. Un objet mal classé par les deux pipelines ne sera pas corrigé par la fusion.

Comparaison des niveaux de fusion

Critère	Early Fusion	Mid Fusion (BEV)	Late Fusion
Information préservée	Maximale	Élevée	Réduite (détections seules)
Complexité d’alignement	Très élevée	Modérée (via BEV)	Faible
Robustesse à la panne capteur	Faible	Modérée	Élevée
Coût de calcul	Élevé	Modéré à élevé	Faible
Modularité	Faible	Modérée	Élevée
Précision (benchmarks)	Variable	Meilleure (état de l’art)	Bonne, mais plafonnée
Certifiabilité (sécurité)	Difficile	En cours de standardisation	Plus simple

Fusion adaptative : le futur Des travaux récents comme FDSNet proposent une fusion dynamique qui sélectionne automatiquement le niveau de fusion (early, mid ou late) en fonction de la cohérence sémantique mesurée entre les capteurs à chaque instant. Si les capteurs sont bien alignés et concordants, le système fait de l’early fusion pour maximiser la précision. Si un capteur est dégradé (brouillard, éblouissement), il bascule en late fusion pour préserver la robustesse. Cette approche adaptative est une direction de recherche active.

Algorithmes fondamentaux de sensor fusion

La sensor fusion repose sur un socle théorique solide, mêlant estimation probabiliste, théorie de l’information et apprentissage profond.

Filtre de Kalman et variantes

Le filtre de Kalman est l’algorithme de fusion classique par excellence. Il estime l’état d’un système (position, vitesse d’un véhicule) en combinant un modèle prédictif (physique du mouvement) avec des mesures bruitées de capteurs. À chaque pas de temps, il effectue deux étapes : prédiction (basée sur le modèle) et correction (basée sur la mesure). Le résultat est une estimation optimale au sens des moindres carrés, à condition que le bruit soit gaussien et le système linéaire.

En pratique, les systèmes réels ne sont jamais linéaires. D’où les variantes :

Extended Kalman Filter (EKF) : linéarise le modèle à chaque pas de temps via une approximation de Taylor. C’est le standard industriel pour la navigation inertielle (fusion IMU + GPS) et le suivi d’objets.

Unscented Kalman Filter (UKF) : utilise un ensemble de points « sigma » pour propager la distribution de probabilité à travers la non-linéarité, sans linéarisation explicite. Plus précis que l’EKF pour les non-linéarités fortes.

Improved Adaptive Extended Kalman Filter (IAEKF) : une variante récente qui ajuste dynamiquement les paramètres de bruit, utilisée dans des travaux de fusion multi-capteurs pour le suivi d’objets en conduite autonome.

Filtre particulaire

Le filtre particulaire (ou Monte Carlo séquentiel) représente la distribution de probabilité de l’état par un ensemble de « particules » pondérées. Il n’a pas besoin de l’hypothèse de bruit gaussien et gère bien les distributions multimodales (par exemple, quand la position d’un objet est ambiguë). Son coût de calcul est plus élevé que le Kalman, mais il est très utilisé en robotique (localisation SLAM) et en suivi multi-objets.

Deep Learning pour la fusion

L’approche moderne dominante est d’utiliser le deep learning directement pour la fusion. Au lieu de définir manuellement comment combiner les données, on entraîne un réseau de neurones de bout en bout (end-to-end) à produire des détections 3D à partir des flux caméra et LiDAR combinés.

Les architectures clés incluent :

BEVFusion (MIT/NVIDIA) : transforme les features de chaque capteur en espace BEV via un « view transformer » optimisé, puis fusionne avec un encodeur convolutif. Architecture agnostique à la tâche : détection 3D, segmentation BEV, planification.

BEVFusion4D : extension temporelle de BEVFusion. Utilise un LiDAR-Guided View Transformer (LGVT) et un module d’alignement temporel déformable pour intégrer l’historique des frames BEV, améliorant la détection d’objets occultés et en mouvement.

TransFusion : Transformer avec attention croisée entre les features LiDAR et caméra. Les « queries » d’objets dans l’espace 3D interrogent les features de chaque modalité via un mécanisme de cross-attention.

DeepFusion : techniques InverseAug et LearnableAlign pour un alignement image-point cloud léger. Conçu comme un plugin qui s’intègre facilement dans des détecteurs 3D existants à base de voxels, facilitant le déploiement industriel.

DMFormer : framework récent qui intègre un module de débruitage par diffusion pour améliorer la qualité des features caméra avant fusion, et un mécanisme d’alignement LiDAR-caméra multi-échelle. Adresse les scénarios de conditions dégradées (éclairage variable, météo, occlusions).

DifFUSER : utilise des modèles de diffusion pour raffiner ou même synthétiser des features capteur en cas de panne, renforçant la robustesse de la fusion quand un capteur est dégradé ou hors service.

Grilles d’occupation (Occupancy Grids)

L’approche par grilles d’occupation discrétise l’espace en cellules et attribue à chaque cellule une probabilité d’être occupée, libre ou inconnue. Plusieurs capteurs mettent à jour cette grille indépendamment via la règle de Bayes. C’est une méthode de fusion mature, utilisée depuis les années 1980 en robotique, qui reste pertinente pour la navigation et la détection d’obstacles statiques. Les versions modernes (occupancy networks) utilisent des réseaux de neurones pour prédire l’occupation 3D à partir de données multi-capteurs.

Calibration : le prérequis critique

La fusion ne fonctionne que si les capteurs sont correctement calibrés. La calibration établit la relation géométrique précise entre les capteurs : positions relatives, orientations, et paramètres intrinsèques. Sans calibration précise, un objet détecté par la caméra et le même objet détecté par le LiDAR ne seront pas alignés dans l’espace commun, et la fusion produira des résultats incohérents.

Il existe trois catégories principales de calibration :

Calibration intrinsèque : paramètres internes de chaque capteur (focale et distorsion pour une caméra, modèle de bruit pour un LiDAR).

Calibration extrinsèque : transformation rigide (rotation + translation) entre deux capteurs. Par exemple, la matrice 4×4 qui relie le repère du LiDAR au repère de la caméra. C’est le paramètre le plus critique pour la fusion.

Calibration temporelle : estimation des décalages temporels entre les capteurs, qui fonctionnent à des fréquences différentes. Un LiDAR à 10 Hz et une caméra à 30 Hz n’acquièrent pas leurs données au même instant. À 100 km/h, un décalage de 10 ms correspond à un déplacement de 28 cm, ce qui peut provoquer des erreurs de fusion significatives.

La calibration dérive dans le temps Les vibrations, les chocs thermiques et l’usure mécanique modifient graduellement la position relative des capteurs sur un véhicule. Les systèmes de production intègrent désormais des algorithmes d’auto-calibration en ligne, qui estiment et corrigent la calibration extrinsèque en continu pendant le fonctionnement. Sans cette capacité, la précision de la fusion se dégrade au fil du temps.

Applications de la sensor fusion

Conduite autonome et ADAS

C’est le marché moteur de la sensor fusion. Un véhicule autonome de niveau 4 typique embarque plus de 30 capteurs : 6 à 12 caméras couvrant 360°, 1 à 5 LiDAR (longue portée + courte portée), 5 à 6 radars (avant, arrière, coins), 12 capteurs ultrasoniques, une IMU haute précision et un récepteur GNSS.

Les systèmes ADAS de niveau 2+ (freinage d’urgence, maintien de voie, régulateur adaptatif) utilisent typiquement une combinaison caméra-radar, parfois augmentée de LiDAR sur les modèles premium. Le segment ADAS représente environ 33 % du marché de la sensor fusion automobile en 2026.

Mobileye, filiale d’Intel, fournit des systèmes ADAS à plus de 60 millions de véhicules dans le monde. Sa plateforme EyeQ fusionne les données de multiples caméras avec un radar intégré. Waymo, le programme de véhicules autonomes d’Alphabet, a accumulé plus de 10 millions de kilomètres autonomes sur routes publiques grâce à une fusion LiDAR-caméra-radar considérée comme la plus mature du secteur.

Robotique et drones

Les drones combinent typiquement GPS, IMU, baromètre, caméra stéréo et parfois LiDAR pour la navigation. La fusion IMU+GPS est critique : le GPS fournit la position absolue (mais à basse fréquence et avec du bruit), l’IMU fournit l’accélération et la rotation à haute fréquence (mais dérive dans le temps). Le filtre de Kalman étendu fusionne ces deux sources pour produire une estimation de position fluide et précise.

En robotique d’intérieur (entrepôts, hôpitaux), le GPS n’est pas disponible. Les robots utilisent la fusion LiDAR + odométrie (encodeurs de roues) via des algorithmes SLAM pour se localiser et naviguer. La précision atteint 2 cm en conditions contrôlées.

Smartphones et wearables

Votre téléphone fait de la sensor fusion en permanence. L’orientation de l’écran est calculée en fusionnant accéléromètre, gyroscope et magnétomètre. La navigation piétonne fusionne GPS, Wi-Fi, Bluetooth et IMU. Apple utilise le framework ARKit avec fusion de la caméra et du capteur LiDAR (sur les modèles Pro) pour la réalité augmentée. En 2024, environ 89 % des nouveaux smartphones intégraient des capacités de sensor fusion.

Les montres connectées et les wearables de santé fusionnent des capteurs de fréquence cardiaque, d’oxymétrie, d’accélérométrie et parfois de température pour estimer l’activité physique, la qualité du sommeil et détecter des anomalies cardiaques. Environ 42 % des montres connectées embarquent des algorithmes de sensor fusion dédiés.

Industrie et IoT

Dans l’industrie 4.0, la sensor fusion combine des capteurs de vibration, de température, de pression et de courant pour la maintenance prédictive des machines. Siemens intègre par exemple la fusion de capteurs avec l’IA et le machine learning dans ses moteurs Simotics pour analyser les performances et anticiper les besoins de maintenance.

Les systèmes de smart city fusionnent des données de trafic (caméras, boucles magnétiques, radar) avec des données météo et des flux de transport public pour optimiser la circulation en temps réel.

Défense et aérospatial

La fusion de capteurs est née dans le domaine militaire. Les systèmes de défense fusionnent radar, infrarouge, guerre électronique et imagerie satellite pour la surveillance, la détection de menaces et le guidage de systèmes d’armes. Les standards OTAN (comme STANAG 4586 pour les drones) intègrent des spécifications de fusion multi-capteurs.

Défis techniques de la sensor fusion

Synchronisation temporelle

Les capteurs fonctionnent à des fréquences différentes et ne sont pas parfaitement synchronisés. Un LiDAR à 10 Hz, une caméra à 30 Hz et un radar à 80 Hz ne produisent jamais une mesure au même instant. La fusion doit interpoler ou extrapoler les mesures pour les aligner temporellement. À haute vitesse, même quelques millisecondes de décalage introduisent des erreurs de positionnement significatives.

Dégradation et panne de capteur

Un système de fusion doit fonctionner de manière dégradée quand un capteur est défaillant ou fortement bruité (lentille de caméra sale, LiDAR sous forte pluie, perte de signal GPS en tunnel). Les architectures robustes intègrent des mécanismes de détection de panne et de pondération adaptative : le poids d’un capteur dégradé est réduit automatiquement. Les modèles de diffusion comme DifFUSER vont plus loin en synthétisant les features manquantes à partir des capteurs restants.

Puissance de calcul embarquée

La fusion en temps réel de flux caméra, LiDAR et radar exige une puissance de calcul considérable. Les plateformes embarquées modernes (NVIDIA DRIVE Orin, Qualcomm Snapdragon Ride, Mobileye EyeQ6) intègrent des accélérateurs dédiés (GPU, NPU) pour le traitement des réseaux de perception et de fusion. Le défi est de respecter des contraintes de latence strictes (typiquement < 50 ms du capteur à la décision) tout en limitant la consommation énergétique.

Domain shift et généralisation

Un modèle de fusion entraîné dans un environnement (par exemple, les rues de San Francisco par beau temps) peut mal fonctionner dans un contexte différent (routes de campagne européennes sous la pluie). Ce « domain shift » est l’un des obstacles majeurs au déploiement mondial des systèmes autonomes. Les approches de domain adaptation et de data augmentation multi-conditions visent à améliorer la robustesse, mais le problème reste ouvert.

Interprétabilité et certification

Les réseaux de fusion end-to-end sont des boîtes noires. Expliquer pourquoi le système a fusionné les données d’une certaine manière et a produit telle détection est difficile. Or, la certification de sécurité (ISO 26262, SOTIF) exige un certain niveau de compréhension du comportement du système. C’est un frein majeur à l’adoption de la fusion par deep learning dans les systèmes critiques. Les mécanismes d’attention des Transformers offrent un début d’interprétabilité (on peut visualiser quels capteurs et quelles régions le modèle « regarde »), mais cela reste insuffisant pour une certification formelle.

Le marché de la sensor fusion

Le marché global de la sensor fusion est estimé entre 6,5 et 8 milliards de dollars en 2025, selon les sources. Fortune Business Insights l’évalue à 6,44 milliards $ en 2025, avec une projection à 31,65 milliards $ d’ici 2034 (CAGR d’environ 20 %). IMARC Group l’estime à 7,6 milliards $ en 2024, projetant 28,2 milliards $ d’ici 2033 (CAGR de 15,74 %). Les écarts reflètent des périmètres de marché différents (certains incluent les capteurs eux-mêmes, d’autres seulement le logiciel et les processeurs de fusion).

Quelques tendances structurantes :

L’automobile domine : environ 45 % du marché est tiré par l’ADAS et les véhicules autonomes. Le segment caméra représente environ 48 % de la part de marché en volume de capteurs fusionnés.

L’Asie-Pacifique en tête : la région détient environ 30 à 49 % du marché (selon les sources), portée par la Chine, le Japon et la Corée du Sud. La Chine seule représente environ 36 % du marché Asie-Pacifique.

Les véhicules particuliers dominent : environ 68 % du marché automobile de la sensor fusion concerne les voitures particulières, portées par la montée en gamme des ADAS et la croissance des véhicules électriques.

Les acteurs clés incluent Continental, Bosch, NXP Semiconductors, Aptiv, NVIDIA, Qualcomm, STMicroelectronics, Renesas, Analog Devices et Mobileye.

Tendances et avenir

Fusion end-to-end et foundation models. La recherche s’oriente vers des architectures de perception unifiées où un seul réseau traite tous les capteurs et produit directement des commandes de conduite, sans pipeline séparé de détection, planification, contrôle. Les foundation models de conduite (comme les modèles de type UniAD) explorent cette voie, même si le déploiement reste expérimental.

V2X : la fusion au-delà du véhicule. La communication Vehicle-to-Everything (V2X) permet au véhicule de recevoir des données de capteurs d’infrastructure (caméras de carrefour, LiDAR de péage) et d’autres véhicules. Cela étend le champ de perception bien au-delà de la portée des capteurs embarqués. Le programme « Autonomous Driving Vision 2030 » de Séoul inclut explicitement une infrastructure de signalisation connectée pour la conduite autonome coopérative.

Fusion probabiliste et estimation d’incertitude. Les systèmes de fusion modernes ne se contentent plus de produire une détection : ils estiment aussi l’incertitude de cette détection. Un piéton partiellement occulté sera détecté avec une confiance de 60 %, pas de 99 %. Cette information d’incertitude est critique pour la prise de décision sûre (par exemple, ralentir quand la perception est incertaine).

Modèles de diffusion pour la robustesse. Les modèles génératifs (diffusion) sont explorés pour régénérer les features d’un capteur défaillant à partir des données des autres capteurs. C’est un changement de paradigme : au lieu de simplement ignorer un capteur en panne, le système reconstruit ce qu’il aurait vu, améliorant considérablement la robustesse.

Verdict

La sensor fusion est le pilier silencieux de tout système autonome. Sans elle, aucun véhicule ne peut conduire, aucun drone ne peut voler, aucun robot ne peut naviguer de manière fiable. L’architecture BEV avec fusion mid-level par Transformers est l’état de l’art actuel, mais le domaine évolue rapidement vers des systèmes adaptatifs capables de gérer la dégradation capteur et les conditions extrêmes.

Pour les développeurs et les ingénieurs qui travaillent sur la perception autonome : la fusion n’est pas un « nice-to-have ». C’est le cœur de votre pipeline de perception. Investissez dans la calibration, la synchronisation temporelle et la robustesse aux pannes avant de vous concentrer sur l’architecture du réseau. Le meilleur modèle de deep learning ne compensera jamais une calibration extrinsèque défaillante ou un décalage temporel non corrigé.

Questions fréquentes sur la sensor fusion

Quelle est la différence entre sensor fusion et data fusion ?

Les deux termes sont souvent utilisés de manière interchangeable, mais il existe une nuance. La « data fusion » est un terme plus large qui désigne la combinaison de données de sources quelconques (bases de données, rapports, capteurs). La « sensor fusion » désigne spécifiquement la combinaison de données provenant de capteurs physiques (caméras, LiDAR, radar, IMU, etc.) pour percevoir le monde physique. Toute sensor fusion est de la data fusion, mais l’inverse n’est pas vrai.

Quel est le meilleur niveau de fusion : early, mid ou late ?

Il n’y a pas de réponse universelle. La mid fusion (feature-level) avec représentation BEV est l’approche qui donne les meilleurs résultats sur les benchmarks actuels (nuScenes, Waymo Open Dataset). Mais la late fusion reste préférable quand la modularité et la certifiabilité sont prioritaires. Des travaux récents explorent la fusion adaptative, qui choisit dynamiquement le niveau de fusion en fonction de la situation. En pratique industrielle, beaucoup de systèmes combinent plusieurs niveaux : mid fusion pour la détection principale, late fusion comme vérification de sécurité.

La sensor fusion fonctionne-t-elle par tous les temps ?

C’est justement son but : compenser la dégradation d’un capteur par les autres. Par forte pluie, le LiDAR et la caméra perdent en performance, mais le radar reste fiable. En tunnel, le GPS est indisponible, mais l’IMU et la vision continuent de fonctionner. En pratique, la fusion améliore considérablement la robustesse par rapport à un capteur unique, mais aucun système n’est parfait. Les conditions extrêmes (brouillard dense + nuit + neige simultanément) restent un défi pour l’ensemble de la stack de perception.

Combien de capteurs faut-il pour un véhicule autonome ?

Cela dépend du niveau d’autonomie. Un système ADAS de niveau 2 (assistance à la conduite) peut fonctionner avec 1 caméra frontale + 1 radar. Un système de niveau 3 (conduite autonome conditionnelle, comme le Mercedes Drive Pilot) utilise typiquement 2 à 4 caméras, 1 LiDAR, 3 à 5 radars et une IMU. Un robotaxi de niveau 4 comme ceux de Waymo embarque plus de 30 capteurs : 13 caméras, 4 LiDAR, 6 radars, plus des ultrasons et une IMU haute précision. Le coût et la complexité augmentent avec le nombre de capteurs, mais la redondance est essentielle pour la sécurité.

Quels outils et frameworks open source existent pour la sensor fusion ?

Plusieurs frameworks sont disponibles. OpenPCDet (détection 3D LiDAR, supporte plusieurs architectures de fusion), MMDetection3D (framework de détection 3D multi-capteur par OpenMMLab), ROS 2 (Robot Operating System, avec des packages de fusion LiDAR-caméra), et Autoware (stack de conduite autonome open source) sont les plus utilisés. Pour la calibration, Kalibr (calibration multi-caméra et IMU) et les packages de calibration de ROS sont des standards. Côté benchmarks, nuScenes et Waymo Open Dataset sont les références pour évaluer les performances de fusion.