Data Labeling

Le data labeling (ou étiquetage de données) est le processus d’attribution d’étiquettes informatives à des données brutes (images, textes, audio, vidéo) pour permettre à un modèle de machine learning supervisé d’apprendre à partir d’exemples annotés.

Pas de labels, pas de modèle supervisé. C’est aussi simple que ça. Un algorithme de classification d’images ne peut pas distinguer un chat d’un chien si personne ne lui montre des exemples étiquetés « chat » et « chien ». Le data labeling est l’étape la plus coûteuse et la plus chronophage de la plupart des projets d’IA, mais c’est aussi celle qui détermine le plus directement la qualité du modèle final. Un modèle entraîné sur des labels de mauvaise qualité sera un modèle de mauvaise qualité, quelle que soit la sophistication de son architecture.

Aussi appelé: Annotation de données, étiquetage, tagging
Marché mondial: Estimé à ~5 milliards $ en 2026, CAGR ~29-30% jusqu’en 2032
Coût par image: 0,05 à 0,25 $ (classification simple) jusqu’à plusieurs $ (segmentation complexe)
Approches: Manuelle, semi-automatique (HITL), programmatique (weak supervision), automatisée (IA)
Outils open source: Label Studio, CVAT, Prodigy, Doccano
Plateformes commerciales: Scale AI, Labelbox, Dataloop, Sama, V7

Le rôle central du data labeling en machine learning

En apprentissage supervisé, le modèle apprend la relation entre des entrées (features) et des sorties (labels). Sans labels, il n’y a pas d’apprentissage supervisé. Le data labeling transforme des données brutes en un dataset exploitable en attribuant à chaque exemple la « bonne réponse » que le modèle doit apprendre à prédire.

Concrètement, un annotateur examine chaque donnée et lui associe une ou plusieurs étiquettes selon la tâche : « spam » ou « pas spam » pour un filtre email, une bounding box autour de chaque piéton pour un système de conduite autonome, le sentiment « positif/négatif/neutre » pour une analyse de commentaires clients. Le modèle s’entraîne ensuite sur ces paires (donnée, label) pour apprendre à reproduire le jugement humain sur de nouvelles données.

Le marché du data labeling reflète cette importance : il est estimé à environ 5 milliards de dollars en 2026 et devrait atteindre 23 à 29 milliards de dollars d’ici 2032, avec un taux de croissance annuel de l’ordre de 29 à 30%. L’image et la vidéo représentent plus de 40% de ce marché, tirées par les véhicules autonomes et l’imagerie médicale.

Les types de labeling par modalité

Image

Le labeling d’images est le plus diversifié en termes de techniques, car les tâches de computer vision varient énormément en complexité.

Type d’annotation	Description	Complexité	Cas d’usage
Classification	Attribuer une ou plusieurs catégories à l’image entière	Faible	Tri d’images, modération de contenu
Bounding box	Dessiner un rectangle autour de chaque objet d’intérêt	Moyenne	Détection d’objets, véhicules autonomes
Segmentation sémantique	Attribuer une classe à chaque pixel de l’image	Élevée	Imagerie médicale, cartographie
Segmentation d’instance	Comme la sémantique, mais en distinguant chaque instance d’une même classe	Très élevée	Comptage d’objets, robotique
Keypoints / Pose	Placer des points clés sur un sujet (articulations du squelette, landmarks faciaux)	Élevée	Analyse de mouvement, reconnaissance faciale
Polygone / Polyline	Tracer le contour précis d’un objet avec des segments	Élevée	Détection de voies, cartographie

Le coût et le temps de labeling augmentent considérablement avec la complexité. Compter quelques centimes par image pour de la classification simple, mais plusieurs dollars par image pour de la segmentation d’instance en imagerie médicale, où chaque pixel compte et où l’annotateur doit être un expert du domaine.

Texte

Le labeling de texte couvre un large spectre de tâches de NLP :

Classification de texte. Attribuer une catégorie à un document ou une phrase entière (sentiment, intention, sujet). C’est la tâche la plus simple et la moins coûteuse.

Named Entity Recognition (NER). Identifier et catégoriser les entités nommées dans un texte (personnes, organisations, lieux, dates, montants). Chaque mot ou groupe de mots reçoit une étiquette. Essentiel en extraction d’information, analyse juridique et traitement de documents.

Relation extraction. Identifier les relations entre entités (par exemple, « Jean Dupont » est le « PDG » de « Acme Corp »). Plus complexe que le NER car il faut annoter non seulement les entités mais aussi les liens entre elles.

Résumé / QA. Associer un texte source à un résumé de référence ou à une paire question-réponse. Ce type de labeling est utilisé pour entraîner et évaluer les systèmes de question answering et de résumé automatique.

Audio

Transcription. Convertir la parole en texte, mot par mot. C’est la base de l’entraînement des systèmes de reconnaissance vocale (ASR).

Diarisation. Identifier qui parle à quel moment dans un enregistrement multi-locuteurs. Indispensable pour les systèmes de transcription de réunions.

Classification audio. Étiqueter des segments sonores par catégorie (musique, parole, bruit ambiant, alarme). Utilisé en surveillance acoustique et détection d’événements.

Détection d’émotions. Annoter le ton émotionnel (joie, colère, tristesse, neutre) des segments vocaux. En pleine croissance pour les centres d’appels et les assistants vocaux.

Vidéo

Le labeling vidéo est le plus coûteux et le plus complexe : il combine les défis du labeling d’images avec la dimension temporelle. Chaque frame doit être annotée, et les objets doivent être trackés d’une frame à l’autre avec des identifiants uniques (objet tracking). Un objet qui sort du champ et revient doit conserver le même identifiant. Les véhicules autonomes et la vidéosurveillance sont les principaux consommateurs de labeling vidéo.

Données 3D (LiDAR / Point clouds)

Les capteurs LiDAR génèrent des nuages de points 3D que les systèmes de conduite autonome utilisent pour percevoir l’environnement. Le labeling consiste à dessiner des bounding boxes 3D autour des véhicules, piétons et obstacles. C’est une des formes les plus spécialisées et les plus coûteuses d’annotation, qui nécessite des outils dédiés et des annotateurs formés aux interfaces 3D.

Les approches de labeling

Labeling manuel

Des annotateurs humains examinent chaque donnée et attribuent les labels selon des guidelines prédéfinies. C’est l’approche la plus précise pour les tâches complexes ou ambiguës, mais aussi la plus lente et la plus coûteuse. Le labeling manuel reste dominant en 2026 pour les tâches critiques (médical, véhicules autonomes, données sensibles) où l’erreur a des conséquences graves.

Le crowdsourcing (Amazon Mechanical Turk, Toloka) permet de distribuer le travail d’annotation à un grand nombre de travailleurs non spécialisés pour les tâches simples. Le coût est faible, mais la qualité est variable et nécessite des mécanismes de contrôle (double annotation, vote majoritaire).

Labeling semi-automatique (Human-in-the-Loop)

C’est l’approche dominante dans l’industrie. Un modèle de ML pré-annote les données (pré-labeling), et des annotateurs humains corrigent les erreurs. Ce processus itératif accélère considérablement le labeling : l’humain ne part pas de zéro mais valide et corrige des suggestions. À chaque cycle, le modèle de pré-annotation s’améliore grâce aux corrections humaines.

L’active learning pousse cette logique encore plus loin : le modèle identifie les exemples sur lesquels il est le plus incertain et les soumet en priorité à l’annotateur humain. Au lieu d’annoter uniformément toutes les données, l’effort humain se concentre sur les cas les plus informatifs. Des études montrent que l’active learning peut réduire de 50 à 80% le volume d’annotations nécessaires pour atteindre un niveau de performance donné.

Labeling programmatique (weak supervision)

Plutôt que d’annoter manuellement chaque exemple, le labeling programmatique utilise des fonctions de labeling (labeling functions) qui encodent des heuristiques, des règles métier ou des modèles existants pour générer automatiquement des labels « bruyants » (potentiellement erronés). Un modèle agrège ensuite ces sources multiples en labels probabilistes. L’outil de référence est Snorkel, qui combine les sorties de plusieurs fonctions de labeling via un modèle génératif.

Avantage : vous pouvez labeler des millions d’exemples en quelques heures. Inconvénient : les labels sont moins précis que l’annotation humaine. Cette approche est idéale pour les tâches où le volume prime sur la précision parfaite, ou comme première itération avant un affinage humain ciblé.

Labeling automatisé par IA

Les foundation models (GPT, Claude, modèles de segmentation comme SAM) peuvent désormais labeler automatiquement certaines tâches bien définies. Pour de la classification de texte simple ou du tagging d’images, l’auto-labeling par IA peut réduire les coûts de plus de 90% par rapport au labeling manuel. Cependant, cette approche reste insuffisante pour les tâches safety-critical ou les cas ambigus. En pratique, l’auto-labeling sert de pré-annotation dans un pipeline HITL.

Pipeline recommandé La combinaison la plus efficace en 2026 : auto-labeling par un modèle de fondation → correction humaine ciblée via active learning → contrôle qualité par double annotation. Ce pipeline hybride offre le meilleur rapport qualité/coût pour la majorité des projets.

Outils et plateformes

Open source

Outil	Spécialité	Points forts	Limites
Label Studio	Multi-modal (image, texte, audio, vidéo, HTML, time series)	Très flexible, SDK Python, ML backend intégré, templates configurables, communauté active	Interface moins fluide que les outils commerciaux pour les gros volumes
CVAT	Computer vision (images, vidéo)	Développé par Intel, excellent pour bounding boxes et segmentation, support vidéo natif	Limité au visuel, pas de NLP
Prodigy	NLP + image	Active learning natif, code-first, léger, rapide à déployer, développé par les créateurs de spaCy	Licence payante pour usage commercial
Doccano	NLP (texte)	Simple, open source, interface web, supporte classification, NER, relation extraction	Moins de fonctionnalités avancées

Plateformes commerciales

Plateforme	Forces principales	Positionnement
Scale AI	Leader du marché, workforce managée, qualité très élevée, clients majeurs (OpenAI, Meta, US DoD)	Enterprise, véhicules autonomes, défense
Labelbox	Plateforme collaborative, AI-assisted labeling, workflows de qualité, intégration MLOps	Équipes ML mid-market à enterprise
V7	Auto-annotation IA puissante, spécialisé computer vision, interface fluide	Computer vision, imagerie médicale
Dataloop	Pipelines de données end-to-end, annotation + gestion de datasets + orchestration	Enterprise multi-modal
Sama	Workforce humaine spécialisée + plateforme ML, entreprise à impact social	Grands volumes, données sensibles
Snorkel AI	Weak supervision, labeling programmatique, pas d’annotation manuelle pour les cas simples	NLP, classification à grande échelle

Comment choisir ? Pour un projet personnel ou un prototype, Label Studio (open source, multi-modal) suffit largement. Pour une équipe ML qui a besoin de collaboration et de contrôle qualité, Labelbox ou V7 offrent un bon rapport fonctionnalités/prix. Pour des volumes massifs ou des exigences de qualité critiques (véhicules autonomes, défense), Scale AI reste la référence. Et si vous avez des millions d’exemples à labeler avec des règles relativement simples, Snorkel (weak supervision) peut vous faire économiser des mois de travail.

Assurer la qualité du labeling

La qualité des labels est aussi importante que leur volume. Voici les pratiques essentielles.

Guidelines claires et détaillées

Des instructions d’annotation ambiguës produisent des labels incohérents. Les guidelines doivent définir précisément : les catégories de labels et leurs définitions, les règles pour les cas limites (avec des exemples concrets), les conventions visuelles (bounding box serrée ou avec marge, inclusion ou exclusion des parties partiellement visibles), et les critères de rejet. Plus les guidelines sont précises, plus les annotateurs seront cohérents entre eux.

Accord inter-annotateurs

Faites annoter le même sous-ensemble de données par plusieurs annotateurs indépendamment, puis mesurez leur accord. Le kappa de Cohen (pour deux annotateurs) ou le kappa de Fleiss (pour plus de deux) quantifient cet accord en corrigeant le hasard. Un kappa supérieur à 0,8 indique un bon accord. Un kappa inférieur à 0,6 signale un problème dans les guidelines ou dans la formation des annotateurs.

Double annotation et review

Pour les données critiques, chaque exemple est annoté par au moins deux personnes, et un troisième arbitre résout les désaccords. C’est plus coûteux, mais c’est le standard en imagerie médicale et en véhicules autonomes. Pour les projets à budget limité, une alternative est d’annoter un échantillon en double pour détecter les problèmes systématiques.

Taxonomie des erreurs

Au lieu de simplement corriger les erreurs, classifiez-les par type (guideline ambiguë, exemple ambigu, erreur d’inattention, problème d’interface). Cette taxonomie permet d’identifier les causes profondes et de cibler les améliorations : clarifier une section des guidelines, simplifier l’interface, ou reformer un annotateur spécifique.

Calibration et gold standards

Créez un jeu de données « gold standard » annoté par des experts. Intégrez régulièrement des exemples du gold standard dans le flux de travail des annotateurs (sans qu’ils le sachent). Leur performance sur ces exemples de référence vous donne une mesure objective et continue de la qualité.

Le data labeling à l’ère des LLM

L’essor des grands modèles de langage a profondément transformé le paysage du data labeling.

LLM comme pré-annotateurs

Utiliser un LLM (Claude, GPT, Mistral) pour générer des annotations initiales est devenu une pratique courante. Pour des tâches de classification de texte, de NER ou de sentiment, un LLM bien prompté peut atteindre 80 à 95% de précision en zero-shot, ce qui réduit drastiquement le travail de correction humaine. Le coût est minime : quelques centimes pour des milliers d’exemples avec les modèles économiques (Claude Haiku, GPT-4o mini).

Labeling pour l’alignement (RLHF / DPO)

Les LLM eux-mêmes nécessitent un type spécifique de labeling : les données de préférence humaine. Un annotateur compare deux réponses du modèle à une même question et choisit la meilleure. Ce processus alimente le RLHF (Reinforcement Learning from Human Feedback) ou le DPO (Direct Preference Optimization) qui ajustent le comportement du modèle. La qualité de ces annotations de préférence a un impact disproportionné sur le résultat final : des annotateurs experts avec des guidelines strictes sont essentiels.

Labeling pour l’évaluation

Évaluer les sorties d’un LLM nécessite du labeling humain : des annotateurs jugent la qualité, la pertinence, la factualité et la sécurité des réponses. Les benchmarks comme MMLU, GPQA ou HumanEval sont des datasets annotés par des experts. Ce type de labeling est d’autant plus critique que les capacités des modèles s’approchent du niveau humain : il faut des annotateurs très qualifiés pour distinguer une bonne réponse d’une excellente.

Coûts et économie du data labeling

Le coût du data labeling varie énormément selon la modalité, la complexité de la tâche et la qualification requise des annotateurs.

Type de tâche	Coût par unité (ordre de grandeur)	Facteurs de variation
Classification d’image (simple)	0,02 à 0,10 $	Nombre de catégories, ambiguïté
Bounding box	0,05 à 0,25 $	Nombre d’objets par image, densité
Segmentation sémantique	0,50 à 5,00 $	Résolution, nombre de classes, complexité des contours
Annotation 3D (LiDAR)	1,00 à 10,00+ $	Densité du nuage de points, nombre d’objets
Classification de texte	0,02 à 0,10 $	Longueur du texte, nombre de catégories
NER	0,10 à 0,50 $	Nombre de types d’entités, domaine spécialisé
Transcription audio (par minute)	0,50 à 2,00 $	Qualité audio, nombre de locuteurs, jargon technique
Annotation vidéo (par frame)	0,05 à 0,50 $	Nombre d’objets, tracking requis, fréquence d’annotation

Le vrai coût dépasse le prix par label Le coût total du labeling inclut aussi : la rédaction et l’itération des guidelines, la formation des annotateurs, le contrôle qualité (double annotation, review), la gestion de projet, et les itérations quand les guidelines changent en cours de route. Prévoyez un budget 2 à 3× supérieur au coût brut des annotations.

Externalisation vs in-house. L’externalisation représente environ 69% du marché du data labeling. Les prestataires spécialisés (Scale AI, Sama, Appen) offrent des délais plus courts, des garanties de qualité (jusqu’à 99,9% de précision annoncée) et une scalabilité que la plupart des équipes internes ne peuvent pas égaler. L’in-house se justifie quand les données sont trop sensibles pour sortir de l’entreprise (données médicales, défense) ou quand l’expertise domaine requise est trop pointue pour être externalisée.

Défis éthiques et réglementaires

Conditions de travail des annotateurs

Le data labeling repose massivement sur une main-d’œuvre peu visible, souvent localisée dans des pays à bas coûts (Kenya, Inde, Philippines). Les conditions de travail, la rémunération et l’exposition à du contenu traumatisant (modération de contenu violent ou abusif) sont des sujets de préoccupation croissante. Des enquêtes journalistiques ont mis en lumière des rémunérations de 1 à 2$ de l’heure pour des tâches pénibles. Les donneurs d’ordre ont une responsabilité éthique à vérifier les pratiques de leurs prestataires.

Biais dans l’annotation

Les annotateurs apportent leurs propres biais culturels et subjectifs. La perception de ce qui est « toxique », « approprié » ou « positif » varie selon le profil de l’annotateur. Diversifier l’équipe d’annotation, mesurer l’accord inter-annotateurs par sous-groupes, et documenter les biais connus sont des pratiques essentielles.

RGPD et confidentialité

Quand les données à annoter contiennent des informations personnelles (visages, données médicales, textes avec des noms), le RGPD impose des contraintes strictes : anonymisation avant labeling quand c’est possible, traçabilité complète (qui a annoté quoi, quand, où), et accords de traitement de données avec les prestataires. L’Union européenne a introduit de nouvelles directives spécifiques au labeling de données pour l’IA, renforçant les exigences de transparence et d’éthique dans le cadre de l’AI Act.

Bonnes pratiques

Investissez dans les guidelines. Passez du temps à rédiger des instructions claires avec des exemples positifs ET négatifs pour chaque cas limite. C’est le levier de qualité le plus sous-estimé.

Commencez petit, itérez. Annotez un lot pilote de 50 à 100 exemples, mesurez l’accord inter-annotateurs, affinez les guidelines, puis passez à l’échelle. Ne lancez jamais une campagne de labeling massive sans ce pilote.

Utilisez le pré-labeling. Un modèle pré-entraîné (ou un LLM) peut fournir des labels initiaux que les annotateurs corrigent. C’est systématiquement plus rapide que de partir d’une page blanche.

Mesurez la qualité en continu. Intégrez des exemples gold standard dans le flux, calculez les métriques d’accord régulièrement, et intervenez dès que la qualité baisse.

Versionnez vos annotations. Les labels évoluent (nouvelles catégories, corrections de masse, changement de guidelines). Versionnez vos datasets annotés comme vous versionnez votre code.

Documentez tout. Guidelines, composition de l’équipe d’annotation, métriques de qualité, biais identifiés. Cette documentation est indispensable pour la reproductibilité et la conformité réglementaire.

Questions fréquentes sur le data labeling

Quelle est la différence entre data labeling et annotation ?

En pratique, les deux termes sont interchangeables. Certains font une distinction subtile : le « labeling » désignerait l’attribution d’une étiquette globale (classification : « chat » ou « chien »), tandis que l' »annotation » impliquerait un marquage plus détaillé et localisé (bounding box, segmentation pixel par pixel, NER). Mais dans l’usage courant de l’industrie, « data labeling » et « data annotation » sont synonymes. Utilisez celui que préfère votre interlocuteur.

Combien de temps faut-il pour labeler un dataset ?

Cela dépend entièrement de la taille du dataset, de la complexité de la tâche et de l’approche. Pour de la classification d’images simple, un annotateur expérimenté peut traiter 1 000 à 2 000 images par heure. Pour de la segmentation sémantique, ce chiffre tombe à 10 à 50 images par heure. Avec du pré-labeling par IA, vous pouvez multiplier la productivité par 3 à 10 selon la qualité du modèle de pré-annotation et la complexité des corrections requises.

Peut-on remplacer totalement les annotateurs humains par l’IA ?

Pas encore, sauf pour les tâches les plus simples. Les foundation models excellent en classification de texte, en tagging d’images basique et en pré-annotation, mais ils échouent encore sur les cas ambigus, les domaines très spécialisés (médical, juridique) et les tâches safety-critical. La tendance est au pipeline hybride : l’IA fait 80% du travail, l’humain gère les 20% restants. Même dans ce scénario, la supervision humaine reste indispensable pour détecter les erreurs systématiques du modèle de labeling automatique.

Comment gérer le data labeling quand on a un petit budget ?

Plusieurs stratégies s’offrent à vous. Utilisez Label Studio (gratuit, open source) comme outil. Employez un LLM économique (Claude Haiku, GPT-4o mini) pour le pré-labeling automatique. Concentrez l’effort humain sur les cas que le LLM n’arrive pas à résoudre (active learning). Et si vous manquez de données labelisées, combinez weak supervision (Snorkel) avec un petit volume d’annotations manuelles de haute qualité. Le transfer learning et le fine-tuning permettent aussi d’obtenir de bons résultats avec beaucoup moins de données annotées.

Le labeling est-il différent pour le fine-tuning des LLM ?

Oui. Le fine-tuning d’un LLM nécessite des paires instruction/réponse de haute qualité, pas de simples étiquettes catégorielles. Les annotateurs doivent rédiger ou évaluer des réponses complètes, ce qui demande plus de compétences et de temps qu’un labeling classique. Pour l’alignement via RLHF ou DPO, il faut en plus des comparaisons de préférences : l’annotateur lit deux réponses et choisit la meilleure. Ce type de labeling est nettement plus cher et nécessite des annotateurs experts qui comprennent les nuances de qualité des réponses d’un LLM.