Uncertainty Estimation (Estimation d’Incertitude)

L’uncertainty estimation (ou uncertainty quantification, UQ) regroupe l’ensemble des méthodes qui permettent à un modèle de deep learning de mesurer et communiquer sa confiance dans ses prédictions. Un modèle qui dit « je suis sûr à 92 % » quand il a raison et « je ne suis pas sûr » quand il risque de se tromper est infiniment plus utile qu’un modèle qui affirme tout avec la même confiance.

Les réseaux de neurones profonds classiques sont notoirement « sur-confiants » : ils produisent des prédictions incorrectes avec des scores de confiance élevés. Ce problème est critique pour les applications à haut risque. Un système de diagnostic médical qui se trompe sur un cancer avec 95 % de confiance peut tuer un patient. Un véhicule autonome qui classifie un piéton comme un lampadaire avec 98 % de confiance peut causer un accident mortel.

L’estimation d’incertitude résout ce problème en ajoutant une dimension de fiabilité aux prédictions. Un survey publié dans ACM Computing Surveys en février 2026 (He et al.) fournit la taxonomie la plus complète à ce jour des méthodes d’UQ pour les DNN, organisées par source d’incertitude. Un survey parallèle (ACM Computing Surveys 2026) couvre spécifiquement l’UQ pour les grands modèles de langage, identifiant les méthodes adaptées à la détection d’hallucinations.

Catégorie: Ensemble de méthodes pour quantifier la fiabilité des prédictions en ML
Types d’incertitude: Aléatoire (données), épistémique (modèle), distributionnelle (shift)
Méthodes: BNN, MC Dropout, Deep Ensembles, Conformal Prediction, Calibration
Métriques: ECE, NLL, Brier score, couverture, largeur d’intervalle
Applications: Médecine, conduite autonome, LLM (hallucinations), sciences, finance

Les trois sources d’incertitude

Incertitude aléatoire (data uncertainty)

L’incertitude aléatoire provient du bruit intrinsèque dans les données. Même avec un modèle parfait et des données infinies, certaines prédictions resteront incertaines parce que la relation entrée-sortie est fondamentalement bruitée.

En imagerie médicale, une image floue ou sous-exposée crée de l’incertitude aléatoire. Des annotations contradictoires entre radiologues (un voit une tumeur, l’autre non) reflètent une ambiguïté intrinsèque dans les données. En NLP, une phrase ironique peut être interprétée comme positive ou négative selon le contexte : c’est de l’incertitude aléatoire sur le label.

L’incertitude aléatoire est irréductible : plus de données ne la diminueront pas. La seule façon de la réduire est d’améliorer la qualité des données (meilleurs capteurs, protocoles d’annotation plus stricts).

Incertitude épistémique (model uncertainty)

L’incertitude épistémique provient du manque de connaissances du modèle. Le modèle ne sait pas quels sont les bons paramètres parce qu’il n’a pas vu assez de données dans certaines régions de l’espace d’entrée. Cette incertitude se subdivise en trois composantes :

Incertitude des paramètres : les poids optimaux du réseau ne sont pas connus avec certitude. C’est ce que capturent les réseaux bayésiens (BNN) en plaçant des distributions sur les poids.

Incertitude d’architecture : le choix du nombre de couches, du nombre de neurones, de la fonction d’activation affecte les prédictions. Les deep ensembles, en combinant plusieurs architectures, capturent partiellement cette incertitude.

Incertitude de distribution : quand les données de test diffèrent des données d’entraînement (out-of-distribution), le modèle est en terrain inconnu. Cette incertitude requiert des méthodes qui apprennent des embeddings reflétant la distance entre échantillons.

L’incertitude épistémique est réductible : plus de données dans les régions mal couvertes la diminuent. C’est ce qui rend l’active learning possible : on collecte des données là où l’incertitude épistémique est la plus élevée.

Incertitude distributionnelle (distribution shift)

L’écart entre la distribution d’entraînement et la distribution de test introduit une incertitude supplémentaire. Un modèle entraîné sur des radiographies d’un hôpital peut être peu fiable sur les radiographies d’un autre hôpital (équipement différent, population différente). Capturer cette incertitude nécessite des méthodes de détection out-of-distribution et de calibration sous distribution shift.

Pourquoi distinguer les types d’incertitude ? La réponse appropriée diffère selon le type. Face à une incertitude aléatoire élevée : améliorez les capteurs ou acceptez le bruit. Face à une incertitude épistémique élevée : collectez plus de données (active learning). Face à une incertitude distributionnelle : recalibrez ou réentraînez le modèle sur les nouvelles données. Un bon système d’UQ permet de prendre la bonne décision.

Les méthodes principales

Méthodes bayésiennes

Les réseaux de neurones bayésiens (BNN) sont la base théorique la plus solide pour l’estimation d’incertitude. En plaçant des distributions sur les poids, ils capturent l’incertitude épistémique via la variance de la postérieure. Les trois implémentations principales sont la variational inference (Bayes by Backprop), MC Dropout (Gal et Ghahramani, 2016), et MCMC (HMC/NUTS). Un travail publié dans Nature Communications en mars 2026 (Schmal et Mäder) propose des pas de Metropolis-Hastings efficaces intégrés au stochastic gradient HMC, améliorant la précision et l’estimation d’incertitude pour les réseaux profonds.

Deep Ensembles

Entraîner M modèles indépendants et utiliser la variance de leurs prédictions comme mesure d’incertitude. C’est empirique (non bayésien au sens strict), mais les deep ensembles sont actuellement la méthode la plus performante sur la plupart des benchmarks d’UQ. Leur force : ils capturent naturellement l’incertitude d’architecture (chaque modèle explore une solution différente) et sont simples à implémenter.

Modélisation hétéroscédastique

Pour capturer l’incertitude aléatoire, on modifie la couche de sortie du réseau pour prédire non seulement la valeur y mais aussi sa variance σ²(x). Le modèle apprend que certaines entrées sont intrinsèquement plus bruitées que d’autres. La loss devient une negative log-likelihood gaussienne qui pénalise à la fois l’erreur de prédiction et la mauvaise estimation de la variance.

Kendall et Gal (2017) ont montré comment combiner incertitude aléatoire (hétéroscédastique) et épistémique (MC Dropout) dans un même modèle : le réseau prédit y et σ²(x), et on applique MC Dropout pour obtenir la variance des prédictions sur T passes.

Conformal Prediction

La conformal prediction est une approche non paramétrique qui fournit des intervalles de prédiction avec des garanties de couverture théorique. Au lieu de modéliser la distribution, elle utilise les résidus du modèle sur un set de calibration pour construire des intervalles qui contiennent la vraie valeur avec une probabilité spécifiée (ex. : 90 %). L’avantage majeur : aucune hypothèse sur le modèle, garantie valide même pour des modèles mal spécifiés.

Evidential Deep Learning

Les méthodes évidentielles placent un prior de Dirichlet sur les probabilités de classe (pour la classification) et apprennent les paramètres de ce prior. Le réseau produit directement une distribution sur les distributions de probabilité, fournissant une estimation d’incertitude en un seul forward pass (sans multi-pass comme MC Dropout ou ensembles). L’incertitude totale se décompose en incertitude aléatoire (entropie de la distribution prédite) et incertitude épistémique (variance de la distribution de Dirichlet).

Méthodes basées sur la distance

Les réseaux RBF (Radial Basis Function), les DUE (Deterministic Uncertainty Estimation) et les méthodes à base d’embeddings estiment l’incertitude en mesurant la distance entre l’entrée de test et les données d’entraînement dans un espace de représentation appris. Plus une entrée est « loin » des données connues, plus l’incertitude est élevée. Ces méthodes sont particulièrement efficaces pour la détection out-of-distribution.

Métriques d’évaluation

Métrique	Mesure	Interprétation
ECE (Expected Calibration Error)	Écart confiance prédite / précision réelle	Plus bas = mieux calibré
NLL (Negative Log-Likelihood)	Qualité globale de la distribution prédictive	Plus bas = meilleure distribution
Brier Score	Erreur quadratique sur les probabilités	Plus bas = meilleures probabilités
AUROC (OOD)	Capacité à détecter les données hors distribution	Plus haut = meilleure détection OOD
Couverture	% des vraies valeurs dans l’intervalle prédit	Proche du niveau nominal (ex. : 90 %)
Largeur d’intervalle	Taille moyenne des intervalles de confiance	Plus étroit = plus informatif (si couverture OK)

Applications

Médecine et diagnostic

Un système de diagnostic IA avec UQ peut trier les cas : traiter automatiquement les cas clairs (faible incertitude) et référer les cas ambigus (haute incertitude) à un médecin expert. Cela améliore à la fois l’efficacité (moins de cas à examiner manuellement) et la sécurité (les cas difficiles reçoivent une attention humaine).

LLM et détection d’hallucinations

L’UQ pour les LLM est un domaine en forte croissance. Un survey ACM Computing Surveys 2026 identifie quatre catégories de méthodes : les méthodes basées sur les logits (entropie de la distribution de tokens), les méthodes basées sur la cohérence (le modèle donne-t-il la même réponse quand on reformule la question ?), les méthodes d’auto-verbalisation (le modèle exprime sa confiance en langage naturel), et les méthodes de probing (un classifieur externe évalue la fiabilité des représentations internes). L’enjeu est de détecter quand un LLM hallucine avant que la réponse n’atteigne l’utilisateur.

Un exemple concret illustre le problème : quand on demande à GPT-4o mini de nommer un livre écrit par une personne fictive, le modèle répond avec assurance un titre qui n’existe pas. Quand on questionne sa confiance, il s’excuse puis donne un autre titre tout aussi fictif avec la même assurance. Les méthodes d’UQ visent à détecter automatiquement ces cas en analysant la distribution interne des tokens (haute entropie = le modèle « hésite » entre plusieurs continuations) ou en vérifiant la cohérence entre multiples générations pour le même prompt.

La calibration des LLM montre que les modèles sont mieux calibrés sur les questions à choix multiples (où la distribution sur les options est directement mesurable) que sur la génération libre. Des travaux montrent que la calibration s’améliore avec la taille du modèle, ce qui est encourageant pour les modèles frontier comme GPT-5.4 et Claude Opus 4.6.

Conduite autonome et robotique

La perception, la planification et le contrôle d’un véhicule autonome bénéficient tous de l’UQ. Un modèle de détection d’objets avec incertitude peut adapter la vitesse du véhicule en fonction de sa confiance dans ses détections. Un planificateur incertain sur l’intention d’un piéton peut adopter une trajectoire de précaution. Des travaux récents combinent BNN avec du deep RL pour l’optimisation adaptative en génie civil, avec des résultats impressionnants en précision et couverture probabiliste.

Sciences et ingénierie

En science des matériaux, géosciences, physique et chimie, l’UQ est essentielle pour que les prédictions ML soient acceptées par la communauté scientifique, qui exige des barres d’erreur. Les BNN et la conformal prediction fournissent ces intervalles de confiance de manière principielle. Un survey de Springer (Machine Learning for Computational Science and Engineering, 2025) identifie les techniques ML pour l’analyse forward (propagation d’incertitude), l’analyse inverse (identification de paramètres), le diagnostic de pannes et la planification de résilience, montrant que les neural operators avec ensembles randomisés offrent des estimations fiables même avec des données limitées.

Implémentation : estimation d’incertitude combinée

Voici un exemple combinant incertitude aléatoire (sortie hétéroscédastique) et épistémique (MC Dropout) :

import torch
import torch.nn as nn
import numpy as np

class UncertaintyNet(nn.Module):
    """Réseau avec incertitude aléatoire + épistémique."""

    def __init__(self, input_dim, hidden=128, p_drop=0.1):
        super().__init__()
        self.features = nn.Sequential(
            nn.Linear(input_dim, hidden), nn.ReLU(), nn.Dropout(p_drop),
            nn.Linear(hidden, hidden), nn.ReLU(), nn.Dropout(p_drop),
        )
        self.head_mean = nn.Linear(hidden, 1)     # Prédiction
        self.head_logvar = nn.Linear(hidden, 1)   # Log-variance aléatoire

    def forward(self, x):
        h = self.features(x)
        mean = self.head_mean(h)
        log_var = self.head_logvar(h)  # Incertitude aléatoire
        return mean, log_var

    def predict(self, x, n_mc=50):
        self.train()  # Dropout actif
        means, logvars = [], []
        for _ in range(n_mc):
            m, lv = self(x)
            means.append(m)
            logvars.append(lv)
        self.eval()

        means = torch.stack(means)
        logvars = torch.stack(logvars)

        pred = means.mean(0)                          # Prédiction finale
        aleatoric = logvars.exp().mean(0)              # Incertitude aléatoire
        epistemic = means.var(0)                       # Incertitude épistémique
        total = aleatoric + epistemic                  # Incertitude totale
        return pred, aleatoric, epistemic, total

def heteroscedastic_loss(mean, log_var, target):
    """NLL gaussienne avec variance apprise."""
    precision = torch.exp(-log_var)
    return 0.5 * (precision * (target - mean)**2 + log_var).mean()

# Utilisation
model = UncertaintyNet(input_dim=10)
x_test = torch.randn(3, 10)
pred, aleat, epist, total = model.predict(x_test)
for i in range(3):
    print(f"Pred: {pred[i].item():.3f} | "
          f"Aléatoire: {aleat[i].item():.3f} | "
          f"Épistémique: {epist[i].item():.3f} | "
          f"Total: {total[i].item():.3f}")

Ce pattern est directement issu du framework de Kendall et Gal (2017) et combine les deux types d’incertitude dans un modèle unique entraînable end-to-end.

Guide de choix des méthodes

Situation	Méthode recommandée	Justification
Budget compute limité	MC Dropout	Coût quasi nul, fonctionne sur tout réseau avec dropout
Meilleure qualité d’UQ possible	Deep Ensembles	Meilleure calibration empirique, simple à implémenter
Garanties théoriques sur les intervalles	Conformal Prediction	Garantie de couverture sans hypothèse sur le modèle
Fondement bayésien rigoureux	BNN (VI ou MCMC)	Cadre théorique complet, distingue aléatoire/épistémique
UQ en un seul forward pass	Evidential DL ou distance-based	Pas de multi-pass, adapté au temps réel
Détection OOD	Distance-based + Conformal	Sensibles à la nouveauté des entrées
UQ pour LLM	Cohérence + logits entropy	Adapté aux modèles autorégressifs, pas besoin de modifier le modèle

La combinaison gagne En pratique, les meilleures performances d’UQ sont obtenues en combinant plusieurs méthodes. Par exemple : un deep ensemble pour la prédiction + une couche hétéroscédastique pour l’incertitude aléatoire + une conformal prediction pour les garanties de couverture. Chaque méthode capture un aspect différent de l’incertitude.

Questions fréquentes sur l’estimation d’incertitude

Quelle est la différence entre incertitude aléatoire et épistémique ?

L’incertitude aléatoire vient du bruit intrinsèque dans les données (images floues, labels ambigus, variabilité naturelle). Elle est irréductible. L’incertitude épistémique vient du manque de connaissances du modèle (pas assez de données, mauvaise architecture). Elle se réduit avec plus de données. La distinction est cruciale pour l’action : face à l’incertitude aléatoire, améliorez les données ; face à l’épistémique, collectez plus de données dans les zones mal couvertes.

Un modèle avec un score softmax de 95 % est-il fiable ?

Pas nécessairement. Les scores softmax des réseaux de neurones classiques sont notoirement mal calibrés : un score de 95 % ne signifie pas que le modèle a raison 95 % du temps. Les DNN modernes tendent à être sur-confiants (le score softmax est plus élevé que la précision réelle). C’est pourquoi les méthodes d’UQ et de calibration existent : elles transforment ces scores bruts en probabilités fiables.

Les deep ensembles sont-ils la meilleure méthode ?

En termes de performance empirique sur les benchmarks (calibration, NLL, détection OOD), les deep ensembles dominent dans la majorité des comparaisons publiées. Cependant, ils coûtent M fois plus cher (M modèles à entraîner et stocker). Si le budget est limité, MC Dropout est une excellente alternative. Si des garanties théoriques sont nécessaires, la conformal prediction est préférable. Le choix optimal dépend du contexte applicatif.

Comment estimer l’incertitude d’un LLM ?

Les méthodes spécifiques aux LLM incluent : l’entropie de la distribution de tokens (mesure la « dispersion » des choix du modèle à chaque position), la cohérence sémantique (générer plusieurs réponses et mesurer leur accord), l’auto-verbalisation (demander au modèle d’exprimer sa confiance), et le probing des représentations internes. Un survey ACM Computing Surveys 2026 montre que la combinaison de ces approches améliore significativement la détection d’hallucinations.

L’uncertainty estimation ralentit-elle l’inférence ?

Ça dépend de la méthode. MC Dropout et les ensembles nécessitent T ou M forward passes au lieu d’une seule, donc oui (facteur T ou M). L’evidential deep learning et les méthodes distance-based n’ajoutent qu’un léger surcoût (un seul forward pass, avec un head de sortie modifié). La conformal prediction n’ajoute aucun surcoût à l’inférence (le calcul se fait en post-traitement sur un set de calibration). Pour les applications temps réel (conduite autonome, robotique), les méthodes single-pass sont préférées.