Annotation

L’annotation de données est le processus d’ajout de métadonnées descriptives (étiquettes, contours, transcriptions) à des données brutes pour les rendre interprétables par un modèle de machine learning.

Sans annotation, un modèle supervisé ne peut pas apprendre : il voit des pixels, des caractères ou des ondes sonores, mais n’a aucune idée de ce qu’ils représentent. L’annotation fournit le « ground truth », la vérité terrain sur laquelle le modèle calibre ses prédictions. C’est le maillon qui relie les données brutes à l’intelligence du modèle. Le terme est souvent utilisé de façon interchangeable avec data labeling, bien que l’annotation désigne parfois spécifiquement le marquage localisé et détaillé (bounding boxes, segmentation pixel par pixel, NER), par opposition au labeling global (classification d’un document entier).

Aussi appelé: Data labeling, étiquetage de données, tagging
Rôle: Fournir la vérité terrain (ground truth) pour l’apprentissage supervisé
Modalités: Image, texte, audio, vidéo, 3D (LiDAR), séries temporelles
Principe clé: MECE : Mutuellement Exclusif, Collectivement Exhaustif
Outils open source: Label Studio, CVAT, Prodigy, Doccano
Marché: ~5 milliards $ en 2026, croissance ~26-30% par an

Annotation et labeling : quelle différence ?

Dans l’usage courant, « annotation » et « data labeling » sont synonymes. Si vous cherchez un emploi dans le domaine, les deux termes apparaîtront dans les offres de façon interchangeable. Cependant, une distinction technique existe dans certains contextes :

Labeling désigne souvent l’attribution d’une étiquette globale à une donnée entière. Par exemple, classifier une image comme « chat » ou « chien », ou marquer un email comme « spam ».

Annotation implique un marquage plus granulaire et localisé. Dessiner une bounding box autour d’un piéton, segmenter les pixels d’une tumeur dans un IRM, identifier les entités nommées dans un paragraphe juridique : ce sont des annotations.

Dans la suite de cette page, nous utilisons « annotation » au sens large, couvrant les deux acceptions. Pour un traitement approfondi des méthodes de labeling, des outils et des coûts, consultez notre page dédiée data labeling.

Le principe MECE : structurer une taxonomie d’annotation

Avant d’annoter la moindre donnée, vous devez concevoir votre taxonomie d’annotation : l’ensemble des catégories, des types d’étiquettes et des règles qui guideront le processus. Le principe MECE (Mutuellement Exclusif, Collectivement Exhaustif) est la règle d’or.

Mutuellement exclusif signifie que chaque donnée (ou chaque élément annoté) appartient à une seule catégorie. Si un pixel peut être « route » et « trottoir » en même temps, votre taxonomie a un problème de chevauchement. Éliminer les ambiguïtés de classification réduit la confusion du modèle et améliore la cohérence entre annotateurs.

Collectivement exhaustif signifie que toutes les catégories nécessaires sont couvertes. Si votre modèle de détection d’objets rencontre un vélo en production mais que « vélo » n’existe pas dans votre taxonomie, il ne pourra pas le classifier correctement. Incluez une catégorie « autre » ou « inconnu » pour gérer les cas non prévus.

Conseil de conception Commencez par un lot pilote de 50 à 100 exemples représentatifs. Annotez-les vous-même avec votre taxonomie préliminaire. Identifiez les cas ambigus, les catégories manquantes et les chevauchements. Affinez la taxonomie, puis seulement après, passez à l’échelle. Ce pilote vous évitera de devoir ré-annoter des milliers d’exemples à cause d’une taxonomie mal conçue.

Techniques d’annotation pour les images

L’annotation d’images est le domaine le plus diversifié, avec des techniques adaptées à chaque tâche de computer vision.

Bounding boxes (boîtes englobantes)

La technique la plus utilisée en détection d’objets. L’annotateur dessine un rectangle autour de chaque objet d’intérêt et lui attribue une classe. C’est rapide (un annotateur expérimenté peut traiter 1 000 à 2 000 images par heure pour des scènes simples) mais imprécis : le rectangle inclut toujours des pixels de fond. Les bounding boxes sont le format standard pour les architectures YOLO, Faster R-CNN et SSD.

Segmentation sémantique

Chaque pixel de l’image reçoit une étiquette de classe (« route », « ciel », « bâtiment », « piéton »). Le résultat est un masque de couleurs couvrant l’intégralité de l’image. C’est bien plus précis que les bounding boxes, mais 10 à 50 fois plus lent à annoter. Utilisé en conduite autonome, en imagerie satellite et en diagnostic médical. Les architectures U-Net, DeepLab et SegFormer consomment ce type d’annotation.

Segmentation d’instance

Comme la segmentation sémantique, mais chaque instance individuelle d’une même classe est distinguée. Trois piétons dans la même image reçoivent trois masques distincts, ce qui permet de les compter et de les tracker individuellement. C’est l’annotation la plus coûteuse en vision, utilisée par Mask R-CNN et les architectures similaires.

Keypoints et estimation de pose

L’annotateur place des points clés sur des positions anatomiques précises : articulations du corps (épaules, coudes, genoux), landmarks faciaux (coins des yeux, pointe du nez), ou points caractéristiques d’un objet. Ces annotations entraînent des modèles d’estimation de pose (OpenPose, MediaPipe) utilisés en sport, en rééducation médicale et en réalité augmentée.

Polygones et polylines

Les polygones tracent le contour exact d’un objet avec des segments droits. Plus précis que les bounding boxes mais plus rapide que la segmentation pixel par pixel, c’est un compromis courant pour les formes irrégulières. Les polylines (lignes ouvertes) sont spécifiquement utilisées pour annoter les voies de circulation, les trottoirs et les marquages au sol en conduite autonome.

Annotation 3D (nuages de points)

Les capteurs LiDAR produisent des nuages de points 3D que l’annotateur organise en bounding boxes 3D (cuboids) autour des objets. C’est la forme d’annotation la plus complexe : l’annotateur doit raisonner en trois dimensions, gérer des données volumineuses et utiliser des interfaces spécialisées. Les coûts par scan LiDAR peuvent dépasser 10 $ par frame pour des scènes denses.

Techniques d’annotation pour le texte

L’annotation textuelle alimente les modèles de NLP (traitement du langage naturel). Chaque technique cible une compréhension spécifique du langage.

Classification de texte

Attribuer une catégorie à un document ou une phrase entière. Exemples : analyse de sentiment (positif / négatif / neutre), détection d’intention pour un chatbot (commande, question, réclamation), catégorisation thématique (sport, politique, technologie). C’est la forme d’annotation textuelle la plus simple et la moins coûteuse.

NER (Named Entity Recognition)

L’annotateur identifie et catégorise les entités nommées dans le texte : noms de personnes, d’organisations, de lieux, dates, montants financiers, termes techniques. Chaque entité est délimitée (span) et associée à un type. C’est le fondement de l’extraction d’information structurée à partir de texte libre.

Un cas concret : dans un contrat juridique, l’annotateur marque les parties contractantes (ORGANISATION), les dates de signature (DATE), les montants (MONTANT) et les clauses clés (CLAUSE). Le modèle entraîné sur ces annotations peut ensuite extraire automatiquement ces informations de nouveaux contrats.

Annotation sémantique

Associer des métadonnées conceptuelles au texte pour aider le modèle à comprendre le sens profond. C’est plus que du NER : l’annotateur identifie les concepts, leur importance relative et leurs relations. Par exemple, dans la requête « démarrer tondeuse électrique comment », l’annotateur identifie « tondeuse électrique » comme l’objet de la requête et « comment » comme l’intention (recherche de guide), même si la syntaxe est incorrecte.

Relations et coréférences

Annoter les liens entre entités (« X est employé de Y », « Z est situé dans W ») ou les chaînes de coréférence (« elle » fait référence à « Marie » mentionnée plus haut). Ces annotations permettent au modèle de résoudre les références et de comprendre la structure relationnelle d’un texte.

Techniques d’annotation pour l’audio et la vidéo

Audio

Transcription. Convertir la parole en texte avec des timestamps précis. La transcription mot à mot est le format standard pour entraîner les systèmes ASR (Automatic Speech Recognition). La difficulté augmente avec le nombre de locuteurs, les accents et le bruit de fond.

Diarisation. Identifier « qui parle quand » dans un enregistrement multi-locuteurs. L’annotateur segmente le flux audio en tours de parole et attribue chaque segment à un locuteur. Essentiel pour les systèmes de transcription de réunions et de conférences.

Classification d’événements acoustiques. Étiqueter des segments audio par type de son (alarme, musique, parole, bruit de machine). Utilisé en surveillance, en maintenance prédictive (détection de sons anormaux dans une usine) et en audio intelligence.

Vidéo

L’annotation vidéo cumule la complexité de l’annotation image avec la dimension temporelle. Les techniques spécifiques à la vidéo incluent :

Object tracking. Suivre un objet d’une frame à l’autre avec un identifiant persistant. Si un piéton est occulté par un véhicule pendant quelques frames puis réapparaît, il doit conserver le même identifiant. C’est un défi majeur pour les annotateurs, et la raison pour laquelle l’annotation vidéo coûte beaucoup plus cher que l’annotation image.

Reconnaissance d’activités. Étiqueter les actions observées dans la vidéo : « personne traverse la rue », « véhicule tourne à gauche », « paquet est déposé ». L’annotateur définit le début et la fin temporelle de chaque activité. Utilisé en vidéosurveillance et en analyse comportementale.

Segmentation temporelle. Découper une vidéo longue en segments distincts correspondant à des phases ou des événements. Par exemple, découper un match de football en phases de jeu, arrêts, mi-temps. Ou segmenter une vidéo de sécurité en périodes « magasin ouvert » et « magasin fermé » en fonction de l’activité visible.

Volume et complexité Une vidéo de 10 minutes à 30 FPS contient 18 000 frames. Annoter chaque frame manuellement serait impraticable. Les outils modernes (CVAT, V7, Labelbox) proposent l’interpolation automatique entre frames clés : l’annotateur annote certaines frames, et l’outil interpole les positions des objets entre elles. Cela réduit le travail d’un facteur 5 à 10 selon la complexité de la scène.

Le processus d’annotation étape par étape

Un processus d’annotation rigoureux suit ces étapes :

1. Conception de la taxonomie et des guidelines

Définissez les catégories, les règles pour les cas limites et les conventions visuelles. Incluez des exemples positifs (ce qu’il faut annoter) ET négatifs (ce qu’il ne faut pas annoter). Pour la segmentation d’images : la bounding box doit-elle être serrée ou inclure une marge ? Les objets partiellement occultés sont-ils annotés ? Ces détails, apparemment mineurs, ont un impact majeur sur la cohérence des annotations.

2. Lot pilote et calibration

Annotez un échantillon de 50 à 100 exemples avec plusieurs annotateurs indépendamment. Mesurez l’accord inter-annotateurs (kappa de Cohen > 0,8 est l’objectif). Identifiez les sources de désaccord, affinez les guidelines, reformez si nécessaire. Ne passez jamais à l’échelle sans cette étape.

3. Annotation à l’échelle

Distribuez le travail aux annotateurs, idéalement avec un pré-labeling automatique (modèle ML ou LLM) pour accélérer le processus. Les annotateurs corrigent plutôt qu’ils ne créent de zéro. Intégrez des exemples gold standard dans le flux pour surveiller la qualité en continu.

4. Contrôle qualité

Mettez en place des mécanismes de qualité : double annotation sur un sous-ensemble (consensus), review par un annotateur senior, métriques d’accord calculées régulièrement, tableau de bord qualité par annotateur. Si la qualité d’un annotateur baisse sous le seuil, intervenez (formation complémentaire ou réassignation).

5. Itération et raffinement

Les guidelines et la taxonomie évoluent. Un nouveau type d’objet apparaît dans vos données, une catégorie est trop large et doit être subdivisée, ou le feedback du modèle révèle que certaines annotations sont systématiquement problématiques. Le processus d’annotation est itératif, pas linéaire.

6. Intégration au pipeline ML

Les annotations finales alimentent le dataset d’entraînement. Exportez dans le format attendu par votre framework (YOLO format, COCO JSON, VOC XML, CoNLL pour le NER). Versionnez le dataset annoté. Documentez la méthodologie, les métriques de qualité et les biais identifiés.

L’IA au service de l’annotation

L’annotation a profondément évolué avec l’arrivée des modèles de fondation capables de pré-annoter automatiquement.

Pré-annotation par modèles spécialisés

SAM (Segment Anything Model). Le modèle de Meta peut segmenter n’importe quel objet dans une image en un clic. Intégré dans les outils d’annotation (Roboflow, CVAT), il permet à l’annotateur de cliquer sur un objet et d’obtenir instantanément un masque de segmentation qu’il n’a plus qu’à affiner. Le gain de productivité est considérable pour la segmentation d’instance.

YOLO pour la pré-détection. Les modèles YOLO (la dernière version étant YOLO26 d’Ultralytics) peuvent générer des bounding boxes initiales que l’annotateur corrige. Particulièrement efficace quand le domaine cible est proche des données d’entraînement du modèle.

Pré-annotation par LLM

Pour le texte, les LLM sont devenus des pré-annotateurs très performants. Un LLM bien prompté peut effectuer de la classification de sentiment, du NER, de l’extraction de relations et même de l’annotation sémantique avec une précision de 80 à 95% en zero-shot. Le coût est dérisoire avec les modèles économiques : annoter 10 000 textes avec Claude Haiku ou GPT-4o mini coûte quelques dollars. L’annotateur humain se concentre alors sur les cas que le LLM n’a pas su résoudre.

Weak supervision (Snorkel)

L’approche Snorkel encode des heuristiques métier sous forme de « labeling functions » Python. Par exemple : « si le texte contient ‘remboursement’, étiqueter comme ‘réclamation' ». Plusieurs fonctions de labeling imparfaites sont combinées par un modèle probabiliste pour produire des labels agrégés de meilleure qualité. C’est une alternative puissante quand vous avez des règles métier exploitables et des millions d’exemples à annoter.

L’humain reste indispensable Même avec SAM, YOLO et les LLM, l’annotation 100% automatique ne fonctionne pas pour les tâches critiques. Les modèles échouent sur les cas ambigus, les domaines très spécialisés et les edge cases. L’approche hybride (IA pré-annote, humain corrige) est le standard de l’industrie, et le restera pour les applications où une erreur a des conséquences graves (médical, véhicules autonomes, défense).

Métriques de qualité de l’annotation

Comment savoir si vos annotations sont bonnes ? Voici les métriques clés.

Métrique	Ce qu’elle mesure	Seuil recommandé	Quand l’utiliser
Kappa de Cohen	Accord entre 2 annotateurs (corrigé du hasard)	> 0,8 (bon), > 0,6 (acceptable)	Double annotation systématique
Kappa de Fleiss	Accord entre N annotateurs	> 0,8	Équipes de plus de 2 annotateurs
IoU (Intersection over Union)	Chevauchement entre deux annotations spatiales	> 0,7 (détection), > 0,5 (segmentation complexe)	Bounding boxes, segmentation
Précision gold standard	% d’accord avec les exemples de référence	> 95%	Monitoring continu de la qualité
Temps par annotation	Productivité de l’annotateur	Variable selon la tâche	Détection de fatigue ou de bâclage

L’IoU est la métrique standard pour les annotations spatiales. Deux bounding boxes avec un IoU de 0,9 sont presque identiques ; un IoU de 0,3 indique un désaccord important sur la localisation ou la taille de l’objet.

Erreurs fréquentes à éviter

Guidelines vagues. « Annotez les objets importants » n’est pas une guideline. Qu’est-ce qu’un objet « important » ? Pour un annotateur, c’est un piéton ; pour un autre, c’est un panneau. Soyez exhaustif et spécifique.

Pas de lot pilote. Lancer une campagne de 100 000 annotations sans pilote est la garantie de devoir tout refaire quand vous découvrirez des incohérences systématiques.

Taxonomie trop fine ou trop large. 200 catégories de produits quand 20 suffisent pour votre modèle, c’est du gaspillage. Trois catégories quand il en faudrait vingt, c’est un modèle qui ne distingue rien. Calibrez la granularité de la taxonomie avec les besoins réels du modèle.

Ignorer le feedback du modèle. Les erreurs du modèle en validation pointent souvent vers des problèmes d’annotation. Si le modèle confond systématiquement deux classes, c’est peut-être que la distinction n’est pas claire dans les annotations.

Négliger la fatigue des annotateurs. Un annotateur qui travaille 8 heures consécutives sur de la segmentation pixel par pixel verra sa qualité chuter. Prévoyez des rotations, des pauses et variez les tâches.

L’annotation par domaine d’application

Imagerie médicale

L’annotation médicale est la plus exigeante : les annotateurs doivent être des professionnels de santé (radiologues, pathologistes), les erreurs ont des conséquences sur la vie des patients, et les données sont soumises à des réglementations strictes (RGPD, HIPAA). La segmentation de tumeurs, la détection de fractures sur des radiographies et l’analyse de lames histologiques sont des tâches où l’annotation experte reste irremplaçable. Le coût peut atteindre 10 à 50 $ par image annotée.

Véhicules autonomes

Chaque kilomètre de conduite génère des téraoctets de données (caméras, LiDAR, radar). L’annotation doit couvrir les véhicules, piétons, cyclistes, panneaux, marquages au sol, feux de circulation et obstacles, en 2D ET en 3D, sur chaque frame. Des entreprises comme Scale AI, Appen et Sama emploient des milliers d’annotateurs dédiés à cette tâche. L’annotation LiDAR 3D est la plus technique et la plus coûteuse du marché.

Alignement des LLM

L’annotation pour l’alignement des LLM via RLHF ou DPO est un cas particulier : les annotateurs évaluent et comparent des réponses de modèles sur des critères de qualité (pertinence, factualité, ton, sécurité). Ce type d’annotation exige des compétences rédactionnelles et analytiques élevées, et a un impact disproportionné sur le comportement final du modèle. C’est la forme de labeling la plus stratégique dans l’écosystème IA actuel.

Questions fréquentes sur l’annotation de données

Quelle est la différence entre annotation et data labeling ?

Dans l’usage courant, les deux termes sont synonymes et interchangeables. Certains spécialistes réservent « labeling » à l’attribution d’une étiquette globale (classification d’un document) et « annotation » au marquage localisé et détaillé (bounding boxes, segmentation, NER). En pratique, les offres d’emploi, les outils et les publications utilisent les deux termes indifféremment. Ne vous inquiétez pas de la distinction : concentrez-vous sur la qualité du processus.

Combien d’annotations faut-il pour entraîner un bon modèle ?

Cela dépend de la complexité de la tâche et de l’approche. Pour une classification binaire simple, quelques centaines d’exemples annotés peuvent suffire. Pour de la détection d’objets, comptez au minimum quelques milliers d’images annotées. Pour la segmentation sémantique, le besoin est encore plus élevé. Le transfer learning réduit considérablement ces volumes : un modèle pré-entraîné sur ImageNet peut être fine-tuné avec quelques centaines d’images annotées pour un nouveau domaine. L’active learning optimise aussi le budget d’annotation en ciblant les exemples les plus informatifs.

Comment mesurer la qualité des annotations ?

La méthode standard est la double annotation : deux annotateurs indépendants annotent le même sous-ensemble de données, et vous mesurez leur accord avec le kappa de Cohen (> 0,8 = bon) ou l’IoU (> 0,7 pour les bounding boxes). Complétez avec des exemples gold standard intégrés dans le flux de production pour un monitoring continu. Si le kappa ou la précision gold standard baisse, identifiez la cause (guideline ambiguë, annotateur en difficulté, cas intrinsèquement difficile) et corrigez.

Quels sont les meilleurs outils d’annotation open source ?

Label Studio est le choix le plus polyvalent : il supporte images, texte, audio, vidéo, séries temporelles et HTML, avec un ML backend intégré pour le pré-labeling. CVAT (développé initialement par Intel) est le meilleur pour la computer vision pure (images et vidéo), avec un excellent support vidéo et l’intégration de SAM pour la segmentation assistée. Prodigy est idéal pour le NLP avec son approche active learning et son interface minimaliste. Doccano est le plus simple pour de l’annotation textuelle basique (classification, NER). Si votre projet combine plusieurs modalités, Label Studio est le point de départ recommandé.

L’annotation par LLM va-t-elle remplacer l’annotation humaine ?

Pas complètement, mais elle transforme radicalement le processus. Pour les tâches simples (classification de sentiment, NER standard, tagging de catégories), les LLM peuvent auto-annoter avec 80 à 95% de précision, réduisant le travail humain à la correction des cas difficiles. Pour les tâches complexes (segmentation médicale, annotation 3D, évaluation de la qualité des réponses de LLM), l’humain reste indispensable. La tendance est au pipeline hybride IA + humain, où l’IA prend en charge le volume et l’humain assure la qualité sur les cas critiques. L’effet net est une réduction des coûts et une accélération du processus, pas une disparition des annotateurs humains.