Active Learning

L’active learning (apprentissage actif) est un paradigme de machine learning dans lequel le modèle sélectionne lui-même les exemples les plus informatifs à faire annoter par un humain, plutôt que d’apprendre passivement à partir d’un dataset aléatoire. L’objectif : atteindre la meilleure performance possible avec le minimum d’annotations, réduisant typiquement les coûts d’étiquetage de 30 à 70 %.

Catégorie: Machine Learning / Optimisation de l’annotation
Principe: Le modèle choisit les exemples les plus utiles à annoter, plutôt que d’annoter aléatoirement
Boucle: Entraîner → sélectionner les plus incertains → annoter → réentraîner → répéter
Stratégies principales: Uncertainty sampling, query-by-committee, diversity sampling, hybrides
Réduction d’annotation: 30 à 70 % de labels en moins pour des performances équivalentes
Frameworks Python: modAL, Cleanlab, Prodigy, Label Studio

Qu’est-ce que l’active learning ?

Imaginez que vous construisez un modèle de classification d’images médicales. Vous avez 100 000 images non étiquetées et le budget pour en faire annoter 5 000 par des radiologues (à 2 € l’annotation, c’est déjà 10 000 €). La question cruciale : lesquelles annoter ?

L’approche naïve est d’en sélectionner 5 000 au hasard. L’active learning fait mieux : il identifie les 5 000 images dont l’annotation apportera le plus d’information au modèle. Typiquement, ce sont les images sur lesquelles le modèle hésite le plus (incertitude élevée) ou qui couvrent des zones sous-représentées de l’espace de données (diversité).

Le résultat est remarquable : en classificaton binaire, l’uncertainty sampling peut atteindre 90 % de la performance finale avec seulement 40 % des données étiquetées. Vous économisez 60 % du budget d’annotation tout en obtenant un modèle presque aussi bon.

La boucle d’active learning

L’active learning fonctionne comme un processus itératif en 5 étapes qui se répète jusqu’à ce que le modèle atteigne la performance cible ou que le budget d’annotation soit épuisé :

1. Entraînement initial. Le modèle est entraîné sur un petit ensemble d’exemples étiquetés (le « seed set »). Ce seed set peut être aussi petit que quelques dizaines d’exemples sélectionnés aléatoirement.

2. Estimation de l’informativeness. Le modèle évalue l’ensemble des données non étiquetées selon une stratégie de sélection (uncertainty, diversity, etc.) et identifie les exemples les plus « informatifs ».

3. Requête d’annotation. Les exemples sélectionnés sont envoyés à un annotateur humain (l’« oracle ») pour obtenir leurs labels. C’est l’étape la plus coûteuse.

4. Mise à jour du dataset. Les exemples nouvellement annotés sont ajoutés au dataset d’entraînement.

5. Réentraînement. Le modèle est réentraîné sur le dataset augmenté. Le cycle recommence à l’étape 2.

La boucle s’arrête quand la performance du modèle plafonne (chaque nouvelle annotation apporte un gain marginal), quand le budget d’annotation est épuisé, ou quand l’incertitude globale du modèle descend sous un seuil acceptable.

Savoir quand s’arrêter L’un des défis les plus sous-estimés de l’active learning est de savoir quand arrêter la boucle. S’arrêter trop tôt limite la performance du modèle. S’arrêter trop tard gaspille le budget d’annotation sans gain significatif. Surveillez la courbe performance/nombre d’annotations : quand elle commence à s’aplatir, c’est le signal d’arrêt.

Les stratégies de sélection

Uncertainty sampling (la plus populaire)

Le modèle sélectionne les exemples sur lesquels il est le plus incertain. L’intuition : un exemple que le modèle ne sait pas classer est un exemple dont l’annotation lui apprendra le plus.

Plusieurs mesures d’incertitude existent :

Mesure	Principe	Formule intuitive
Least confidence	Sélectionne les exemples où la confiance de la prédiction est la plus faible	1 – max(probabilité de la classe prédite)
Margin sampling	Sélectionne les exemples où la différence entre les 2 classes les plus probables est la plus faible	P(2e classe) – P(1re classe) le plus petit
Entropy	Sélectionne les exemples dont la distribution de probabilités a l’entropie maximale	Haute entropie = incertitude maximale sur toutes les classes
BALD	Maximise l’information mutuelle entre prédictions et paramètres du modèle (bayésien)	Sépare incertitude réductible et irréductible

L’uncertainty sampling est simple et efficace, mais il a un défaut : il tend à sur-sélectionner les exemples proches de la frontière de décision, ce qui peut mener à des échantillons redondants (beaucoup d’exemples similaires dans la zone ambiguë).

Query-By-Committee (QBC)

Un comité de modèles (entraînés sur des sous-ensembles différents des données) vote sur la classification de chaque exemple non étiqueté. Les exemples sur lesquels le comité est le plus en désaccord sont sélectionnés pour annotation. Le principe : si les modèles ne s’accordent pas, c’est une zone d’incertitude que des annotations supplémentaires permettront de résoudre.

Le QBC est plus robuste que l’uncertainty sampling d’un seul modèle car il agrège l’incertitude de plusieurs perspectives. Les mesures de désaccord courantes incluent le vote entropy (entropie du vote) et la max standard deviation (écart-type maximal des prédictions).

Diversity sampling

Au lieu de se focaliser sur l’incertitude, le diversity sampling sélectionne les exemples qui couvrent le mieux l’espace de données. L’idée : annoter des exemples variés donne au modèle une vue plus complète de la distribution des données. Les techniques incluent le clustering des embeddings (sélectionner un exemple par cluster) et le core-set selection (sélectionner les exemples qui minimisent la distance maximale entre un exemple non étiqueté et son voisin étiqueté le plus proche).

Stratégies hybrides

Les meilleures performances viennent souvent de la combinaison incertitude + diversité. USDM (Uncertainty Sampling with Diversity Maximization) sélectionne les exemples les plus incertains tout en maximisant la diversité de la sélection. Les stratégies dynamiques comme CLC et CNBSE commencent par de la diversité (exploration de l’espace) puis basculent vers l’incertitude (exploitation des zones ambiguës) au fur et à mesure que le modèle s’améliore.

Les scénarios d’active learning

Pool-based sampling. Le scénario le plus courant. Le modèle a accès à un large « pool » de données non étiquetées et sélectionne par batch les exemples à annoter. C’est le cas typique de la classification d’images ou du NER en NLP.

Stream-based sampling. Les données arrivent en flux continu (ex. vidéo de surveillance, données de capteurs). Le modèle doit décider en temps réel si chaque exemple vaut la peine d’être annoté. Utile quand l’accumulation de données en batch n’est pas possible.

Membership query synthesis. Le modèle génère lui-même des exemples synthétiques à soumettre à l’annotateur. Moins courant, car les exemples générés peuvent être hors-distribution et difficiles à annoter par un humain.

Applications concrètes

Imagerie médicale. L’annotation d’images médicales est extrêmement coûteuse (radiologues spécialisés, temps limité). L’active learning permet de construire des modèles de détection de tumeurs, de segmentation d’organes, ou de classification de pathologies avec 30 à 50 % d’annotations en moins. Des frameworks comme Suggestive Annotation combinent uncertainty sampling et pondération par densité pour la segmentation d’images médicales.

NLP et extraction d’entités cliniques. Des travaux récents (2024-2025) appliquent l’active learning au NER (Named Entity Recognition) clinique avec des modèles pré-entraînés comme BioClinicalBERT. Les stratégies dynamiques qui commencent par la diversité puis basculent vers l’incertitude montrent les meilleurs résultats sur les datasets i2b2 et n2c2.

Science des matériaux. Un benchmark récent (2025, Scientific Reports) évalue 17 stratégies d’active learning pour la prédiction de propriétés de matériaux. Les stratégies incertitude-diversité (LCMD, Tree-based) surpassent clairement les heuristiques géométriques, surtout en début d’acquisition quand les données sont très rares.

Détection d’objets. Le modèle MI-AOD (Multiple Instance Active Object Detection) utilise l’active learning pour sélectionner les images les plus informatives à annoter pour l’entraînement de détecteurs d’objets, réduisant significativement le coût d’annotation des bounding boxes.

LLMs et annotation assistée. L’active learning s’intègre de plus en plus dans les pipelines d’annotation pour les LLMs. Au lieu d’annoter aveuglément des données de fine-tuning, l’active learning sélectionne les exemples les plus informatifs. Combiné avec des outils human-in-the-loop (Prodigy, Label Studio), cela accélère considérablement la création de datasets de qualité.

Datation du bois par spectroscopie. Une application surprenante (2026) : l’active learning est utilisé pour sélectionner les échantillons de bois les plus informatifs à dater par dendrochronologie, réduisant le nombre d’échantillons nécessaires pour construire un modèle de datation précis.

Deep Active Learning et modèles fondamentaux

L’intersection entre active learning et deep learning pose des défis spécifiques. Les modèles profonds ont tendance à être overconfident (trop confiants dans leurs prédictions), ce qui rend les mesures d’incertitude classiques peu fiables. Les approches bayésiennes (Monte Carlo Dropout, ensembles de modèles) améliorent les estimations d’incertitude mais augmentent le coût de calcul.

Avec les modèles fondamentaux (CLIP, BERT, LLMs), l’active learning évolue. Le transfer learning réduit le nombre de labels nécessaires, et l’active learning réduit encore ce nombre en sélectionnant intelligemment les exemples à annoter. La combinaison active learning + pré-entraînement + semi-supervised learning est la plus efficace pour les situations à budget d’annotation très limité.

Limites et pièges de l’active learning

Overhead computationnel. À chaque itération, le modèle doit scorer tous les exemples non étiquetés pour identifier les plus informatifs. Avec un pool de millions d’exemples, ce scoring peut devenir un goulot d’étranglement. Les approches par batch (sélectionner 100-1000 exemples à la fois plutôt qu’un seul) et les approximations (sous-échantillonnage du pool) atténuent ce problème.

Overconfidence des modèles profonds. Les réseaux de neurones profonds ont tendance à être trop confiants dans leurs prédictions. L’uncertainty sampling se base sur cette confiance, qui peut être mal calibrée. Un modèle qui prédit « 95 % chat » peut en réalité n’être sûr qu’à 70 %. Les approches bayésiennes (Monte Carlo Dropout, ensembles) améliorent la calibration mais augmentent les coûts.

Biais de sélection. L’active learning peut introduire un biais dans le dataset d’entraînement. L’uncertainty sampling sur-représente les exemples ambigus proches des frontières de décision et sous-représente les exemples « faciles » mais importants. Cela peut dégrader la performance sur les cas courants tout en améliorant les cas limites.

Cold start. L’active learning a besoin d’un modèle initial pour commencer à scorer les exemples. Ce modèle initial est entraîné sur un seed set aléatoire, qui peut être de mauvaise qualité. Un mauvais départ peut biaiser tout le processus. Des seed sets plus grands et mieux diversifiés atténuent ce risque.

Coût d’intégration. L’active learning nécessite un pipeline technique complet : stockage du pool non étiqueté, interface d’annotation, boucle de réentraînement automatisée, monitoring de performance. C’est un investissement d’infrastructure qui ne se justifie que si le budget d’annotation est un facteur limitant significatif.

Le sampling aléatoire est un compétiteur solide. Pour les tâches simples ou les datasets relativement homogènes, le gain de l’active learning par rapport à l’échantillonnage aléatoire peut être modeste. Testez toujours contre une baseline aléatoire pour vérifier que l’active learning apporte un gain réel.

L’active learning en 2026

Intégration avec les modèles fondamentaux. La combinaison active learning + modèles pré-entraînés + semi-supervised learning est le paradigme dominant pour les situations à faible budget d’annotation. Le transfer learning réduit le nombre de labels nécessaires, et l’active learning réduit encore ce nombre en sélectionnant intelligemment.

LLMs comme annotateurs + active learning comme filtre. Un workflow émergent : un LLM pré-annote automatiquement les données, et l’active learning identifie les cas où l’annotation LLM est probablement fausse (haute incertitude), ciblant uniquement ces cas pour une vérification humaine. C’est le meilleur des deux mondes : la vitesse de l’automatisation et la précision de la vérification humaine.

Les stratégies dynamiques gagnent du terrain. Au lieu de garder la même stratégie tout au long de la boucle, les approches adaptatives commencent par de la diversité (explorer l’espace) puis basculent vers l’incertitude (exploiter les zones ambiguës). Cette transition exploration→exploitation mime les patterns de l’apprentissage humain.

Conseil pratique Commencez par l’uncertainty sampling simple (least confidence ou entropy). C’est la stratégie la plus facile à implémenter et elle donne de bons résultats dans la majorité des cas. Si vous observez que les exemples sélectionnés sont trop similaires entre eux (redondance), ajoutez une contrainte de diversité (clustering des embeddings). Le framework Python modAL facilite l’implémentation avec des intégrations scikit-learn. Pour les projets de production, Prodigy (spaCy) et Label Studio offrent des pipelines active learning intégrés.

Questions fréquentes sur l’active learning

L’active learning réduit-il vraiment les coûts d’annotation ?

Oui, significativement. Les études empiriques montrent une réduction de 30 à 70 % du nombre d’annotations nécessaires pour atteindre une performance cible, selon le domaine et la complexité de la tâche. En classification binaire, l’uncertainty sampling peut atteindre 90 % de la performance finale avec seulement 40 % des labels. Le gain est plus important quand les données sont hétérogènes et que certains exemples sont beaucoup plus informatifs que d’autres.

Quelle est la meilleure stratégie d’active learning ?

Il n’y a pas de stratégie universellement meilleure. L’uncertainty sampling est le choix par défaut car il est simple et efficace. Le Query-By-Committee est plus robuste mais plus coûteux. Les stratégies hybrides (incertitude + diversité) donnent souvent les meilleurs résultats mais sont plus complexes à implémenter. Des benchmarks récents (2025) montrent que les stratégies incertitude-diversité surpassent les approches purement géométriques, surtout en début d’acquisition. Testez 2-3 stratégies sur votre problème et gardez la meilleure.

Quelle est la différence entre active learning et curriculum learning ?

L’active learning décide quelles données annoter quand le budget d’annotation est limité (sélection de données). Le curriculum learning décide dans quel ordre présenter les données déjà étiquetées au modèle (ordonnancement). L’active learning optimise l’allocation du budget d’annotation, le curriculum learning optimise la séquence d’apprentissage. Les deux sont complémentaires : vous pouvez utiliser l’active learning pour sélectionner les données à annoter, puis le curriculum learning pour les présenter dans l’ordre optimal au modèle.

L’active learning fonctionne-t-il avec les LLMs ?

Oui, et c’est un domaine en croissance. L’active learning s’intègre dans les pipelines de fine-tuning des LLMs pour sélectionner les exemples de fine-tuning les plus informatifs. Il est aussi utilisé pour le data labeling assisté par LLM, où un LLM pré-annote les données et l’active learning identifie les cas où l’annotation humaine est nécessaire (les cas où le LLM est incertain). Cette combinaison LLM + human-in-the-loop + active learning est le workflow de pointe pour la création de datasets de qualité.

Quels outils utiliser pour l’active learning en pratique ?

En Python, modAL est le framework le plus populaire pour l’active learning avec scikit-learn. Cleanlab ajoute des capacités de détection de labels bruités. Pour les projets de production avec interface d’annotation, Prodigy (de l’équipe spaCy) et Label Studio offrent des pipelines active learning intégrés avec interface web pour les annotateurs. Pour le deep active learning, des frameworks comme BAAL (Bayesian Active Learning) fournissent des estimations d’incertitude bayésiennes compatibles avec PyTorch.