Data Labeling
Le data labeling (ou étiquetage de données) est le processus d’attribution d’étiquettes informatives à des données brutes (images, textes, audio, vidéo) pour permettre à un modèle de machine learning supervisé d’apprendre à partir d’exemples annotés.
Pas de labels, pas de modèle supervisé. C’est aussi simple que ça. Un algorithme de classification d’images ne peut pas distinguer un chat d’un chien si personne ne lui montre des exemples étiquetés « chat » et « chien ». Le data labeling est l’étape la plus coûteuse et la plus chronophage de la plupart des projets d’IA, mais c’est aussi celle qui détermine le plus directement la qualité du modèle final. Un modèle entraîné sur des labels de mauvaise qualité sera un modèle de mauvaise qualité, quelle que soit la sophistication de son architecture.
- Aussi appelé
- Annotation de données, étiquetage, tagging
- Marché mondial
- Estimé à ~5 milliards $ en 2026, CAGR ~29-30% jusqu’en 2032
- Coût par image
- 0,05 à 0,25 $ (classification simple) jusqu’à plusieurs $ (segmentation complexe)
- Approches
- Manuelle, semi-automatique (HITL), programmatique (weak supervision), automatisée (IA)
- Outils open source
- Label Studio, CVAT, Prodigy, Doccano
- Plateformes commerciales
- Scale AI, Labelbox, Dataloop, Sama, V7
Le rôle central du data labeling en machine learning
En apprentissage supervisé, le modèle apprend la relation entre des entrées (features) et des sorties (labels). Sans labels, il n’y a pas d’apprentissage supervisé. Le data labeling transforme des données brutes en un dataset exploitable en attribuant à chaque exemple la « bonne réponse » que le modèle doit apprendre à prédire.
Concrètement, un annotateur examine chaque donnée et lui associe une ou plusieurs étiquettes selon la tâche : « spam » ou « pas spam » pour un filtre email, une bounding box autour de chaque piéton pour un système de conduite autonome, le sentiment « positif/négatif/neutre » pour une analyse de commentaires clients. Le modèle s’entraîne ensuite sur ces paires (donnée, label) pour apprendre à reproduire le jugement humain sur de nouvelles données.
Le marché du data labeling reflète cette importance : il est estimé à environ 5 milliards de dollars en 2026 et devrait atteindre 23 à 29 milliards de dollars d’ici 2032, avec un taux de croissance annuel de l’ordre de 29 à 30%. L’image et la vidéo représentent plus de 40% de ce marché, tirées par les véhicules autonomes et l’imagerie médicale.
Les types de labeling par modalité
Image
Le labeling d’images est le plus diversifié en termes de techniques, car les tâches de computer vision varient énormément en complexité.
| Type d’annotation | Description | Complexité | Cas d’usage |
|---|---|---|---|
| Classification | Attribuer une ou plusieurs catégories à l’image entière | Faible | Tri d’images, modération de contenu |
| Bounding box | Dessiner un rectangle autour de chaque objet d’intérêt | Moyenne | Détection d’objets, véhicules autonomes |
| Segmentation sémantique | Attribuer une classe à chaque pixel de l’image | Élevée | Imagerie médicale, cartographie |
| Segmentation d’instance | Comme la sémantique, mais en distinguant chaque instance d’une même classe | Très élevée | Comptage d’objets, robotique |
| Keypoints / Pose | Placer des points clés sur un sujet (articulations du squelette, landmarks faciaux) | Élevée | Analyse de mouvement, reconnaissance faciale |
| Polygone / Polyline | Tracer le contour précis d’un objet avec des segments | Élevée | Détection de voies, cartographie |
Le coût et le temps de labeling augmentent considérablement avec la complexité. Compter quelques centimes par image pour de la classification simple, mais plusieurs dollars par image pour de la segmentation d’instance en imagerie médicale, où chaque pixel compte et où l’annotateur doit être un expert du domaine.
Texte
Le labeling de texte couvre un large spectre de tâches de NLP :
Classification de texte. Attribuer une catégorie à un document ou une phrase entière (sentiment, intention, sujet). C’est la tâche la plus simple et la moins coûteuse.
Named Entity Recognition (NER). Identifier et catégoriser les entités nommées dans un texte (personnes, organisations, lieux, dates, montants). Chaque mot ou groupe de mots reçoit une étiquette. Essentiel en extraction d’information, analyse juridique et traitement de documents.
Relation extraction. Identifier les relations entre entités (par exemple, « Jean Dupont » est le « PDG » de « Acme Corp »). Plus complexe que le NER car il faut annoter non seulement les entités mais aussi les liens entre elles.
Résumé / QA. Associer un texte source à un résumé de référence ou à une paire question-réponse. Ce type de labeling est utilisé pour entraîner et évaluer les systèmes de question answering et de résumé automatique.
Audio
Transcription. Convertir la parole en texte, mot par mot. C’est la base de l’entraînement des systèmes de reconnaissance vocale (ASR).
Diarisation. Identifier qui parle à quel moment dans un enregistrement multi-locuteurs. Indispensable pour les systèmes de transcription de réunions.
Classification audio. Étiqueter des segments sonores par catégorie (musique, parole, bruit ambiant, alarme). Utilisé en surveillance acoustique et détection d’événements.
Détection d’émotions. Annoter le ton émotionnel (joie, colère, tristesse, neutre) des segments vocaux. En pleine croissance pour les centres d’appels et les assistants vocaux.
Vidéo
Le labeling vidéo est le plus coûteux et le plus complexe : il combine les défis du labeling d’images avec la dimension temporelle. Chaque frame doit être annotée, et les objets doivent être trackés d’une frame à l’autre avec des identifiants uniques (objet tracking). Un objet qui sort du champ et revient doit conserver le même identifiant. Les véhicules autonomes et la vidéosurveillance sont les principaux consommateurs de labeling vidéo.
Données 3D (LiDAR / Point clouds)
Les capteurs LiDAR génèrent des nuages de points 3D que les systèmes de conduite autonome utilisent pour percevoir l’environnement. Le labeling consiste à dessiner des bounding boxes 3D autour des véhicules, piétons et obstacles. C’est une des formes les plus spécialisées et les plus coûteuses d’annotation, qui nécessite des outils dédiés et des annotateurs formés aux interfaces 3D.
Les approches de labeling
Labeling manuel
Des annotateurs humains examinent chaque donnée et attribuent les labels selon des guidelines prédéfinies. C’est l’approche la plus précise pour les tâches complexes ou ambiguës, mais aussi la plus lente et la plus coûteuse. Le labeling manuel reste dominant en 2026 pour les tâches critiques (médical, véhicules autonomes, données sensibles) où l’erreur a des conséquences graves.
Le crowdsourcing (Amazon Mechanical Turk, Toloka) permet de distribuer le travail d’annotation à un grand nombre de travailleurs non spécialisés pour les tâches simples. Le coût est faible, mais la qualité est variable et nécessite des mécanismes de contrôle (double annotation, vote majoritaire).
Labeling semi-automatique (Human-in-the-Loop)
C’est l’approche dominante dans l’industrie. Un modèle de ML pré-annote les données (pré-labeling), et des annotateurs humains corrigent les erreurs. Ce processus itératif accélère considérablement le labeling : l’humain ne part pas de zéro mais valide et corrige des suggestions. À chaque cycle, le modèle de pré-annotation s’améliore grâce aux corrections humaines.
L’active learning pousse cette logique encore plus loin : le modèle identifie les exemples sur lesquels il est le plus incertain et les soumet en priorité à l’annotateur humain. Au lieu d’annoter uniformément toutes les données, l’effort humain se concentre sur les cas les plus informatifs. Des études montrent que l’active learning peut réduire de 50 à 80% le volume d’annotations nécessaires pour atteindre un niveau de performance donné.
Labeling programmatique (weak supervision)
Plutôt que d’annoter manuellement chaque exemple, le labeling programmatique utilise des fonctions de labeling (labeling functions) qui encodent des heuristiques, des règles métier ou des modèles existants pour générer automatiquement des labels « bruyants » (potentiellement erronés). Un modèle agrège ensuite ces sources multiples en labels probabilistes. L’outil de référence est Snorkel, qui combine les sorties de plusieurs fonctions de labeling via un modèle génératif.
Avantage : vous pouvez labeler des millions d’exemples en quelques heures. Inconvénient : les labels sont moins précis que l’annotation humaine. Cette approche est idéale pour les tâches où le volume prime sur la précision parfaite, ou comme première itération avant un affinage humain ciblé.
Labeling automatisé par IA
Les foundation models (GPT, Claude, modèles de segmentation comme SAM) peuvent désormais labeler automatiquement certaines tâches bien définies. Pour de la classification de texte simple ou du tagging d’images, l’auto-labeling par IA peut réduire les coûts de plus de 90% par rapport au labeling manuel. Cependant, cette approche reste insuffisante pour les tâches safety-critical ou les cas ambigus. En pratique, l’auto-labeling sert de pré-annotation dans un pipeline HITL.
Outils et plateformes
Open source
| Outil | Spécialité | Points forts | Limites |
|---|---|---|---|
| Label Studio | Multi-modal (image, texte, audio, vidéo, HTML, time series) | Très flexible, SDK Python, ML backend intégré, templates configurables, communauté active | Interface moins fluide que les outils commerciaux pour les gros volumes |
| CVAT | Computer vision (images, vidéo) | Développé par Intel, excellent pour bounding boxes et segmentation, support vidéo natif | Limité au visuel, pas de NLP |
| Prodigy | NLP + image | Active learning natif, code-first, léger, rapide à déployer, développé par les créateurs de spaCy | Licence payante pour usage commercial |
| Doccano | NLP (texte) | Simple, open source, interface web, supporte classification, NER, relation extraction | Moins de fonctionnalités avancées |
Plateformes commerciales
| Plateforme | Forces principales | Positionnement |
|---|---|---|
| Scale AI | Leader du marché, workforce managée, qualité très élevée, clients majeurs (OpenAI, Meta, US DoD) | Enterprise, véhicules autonomes, défense |
| Labelbox | Plateforme collaborative, AI-assisted labeling, workflows de qualité, intégration MLOps | Équipes ML mid-market à enterprise |
| V7 | Auto-annotation IA puissante, spécialisé computer vision, interface fluide | Computer vision, imagerie médicale |
| Dataloop | Pipelines de données end-to-end, annotation + gestion de datasets + orchestration | Enterprise multi-modal |
| Sama | Workforce humaine spécialisée + plateforme ML, entreprise à impact social | Grands volumes, données sensibles |
| Snorkel AI | Weak supervision, labeling programmatique, pas d’annotation manuelle pour les cas simples | NLP, classification à grande échelle |
Assurer la qualité du labeling
La qualité des labels est aussi importante que leur volume. Voici les pratiques essentielles.
Guidelines claires et détaillées
Des instructions d’annotation ambiguës produisent des labels incohérents. Les guidelines doivent définir précisément : les catégories de labels et leurs définitions, les règles pour les cas limites (avec des exemples concrets), les conventions visuelles (bounding box serrée ou avec marge, inclusion ou exclusion des parties partiellement visibles), et les critères de rejet. Plus les guidelines sont précises, plus les annotateurs seront cohérents entre eux.
Accord inter-annotateurs
Faites annoter le même sous-ensemble de données par plusieurs annotateurs indépendamment, puis mesurez leur accord. Le kappa de Cohen (pour deux annotateurs) ou le kappa de Fleiss (pour plus de deux) quantifient cet accord en corrigeant le hasard. Un kappa supérieur à 0,8 indique un bon accord. Un kappa inférieur à 0,6 signale un problème dans les guidelines ou dans la formation des annotateurs.
Double annotation et review
Pour les données critiques, chaque exemple est annoté par au moins deux personnes, et un troisième arbitre résout les désaccords. C’est plus coûteux, mais c’est le standard en imagerie médicale et en véhicules autonomes. Pour les projets à budget limité, une alternative est d’annoter un échantillon en double pour détecter les problèmes systématiques.
Taxonomie des erreurs
Au lieu de simplement corriger les erreurs, classifiez-les par type (guideline ambiguë, exemple ambigu, erreur d’inattention, problème d’interface). Cette taxonomie permet d’identifier les causes profondes et de cibler les améliorations : clarifier une section des guidelines, simplifier l’interface, ou reformer un annotateur spécifique.
Calibration et gold standards
Créez un jeu de données « gold standard » annoté par des experts. Intégrez régulièrement des exemples du gold standard dans le flux de travail des annotateurs (sans qu’ils le sachent). Leur performance sur ces exemples de référence vous donne une mesure objective et continue de la qualité.
Le data labeling à l’ère des LLM
L’essor des grands modèles de langage a profondément transformé le paysage du data labeling.
LLM comme pré-annotateurs
Utiliser un LLM (Claude, GPT, Mistral) pour générer des annotations initiales est devenu une pratique courante. Pour des tâches de classification de texte, de NER ou de sentiment, un LLM bien prompté peut atteindre 80 à 95% de précision en zero-shot, ce qui réduit drastiquement le travail de correction humaine. Le coût est minime : quelques centimes pour des milliers d’exemples avec les modèles économiques (Claude Haiku, GPT-4o mini).
Labeling pour l’alignement (RLHF / DPO)
Les LLM eux-mêmes nécessitent un type spécifique de labeling : les données de préférence humaine. Un annotateur compare deux réponses du modèle à une même question et choisit la meilleure. Ce processus alimente le RLHF (Reinforcement Learning from Human Feedback) ou le DPO (Direct Preference Optimization) qui ajustent le comportement du modèle. La qualité de ces annotations de préférence a un impact disproportionné sur le résultat final : des annotateurs experts avec des guidelines strictes sont essentiels.
Labeling pour l’évaluation
Évaluer les sorties d’un LLM nécessite du labeling humain : des annotateurs jugent la qualité, la pertinence, la factualité et la sécurité des réponses. Les benchmarks comme MMLU, GPQA ou HumanEval sont des datasets annotés par des experts. Ce type de labeling est d’autant plus critique que les capacités des modèles s’approchent du niveau humain : il faut des annotateurs très qualifiés pour distinguer une bonne réponse d’une excellente.
Coûts et économie du data labeling
Le coût du data labeling varie énormément selon la modalité, la complexité de la tâche et la qualification requise des annotateurs.
| Type de tâche | Coût par unité (ordre de grandeur) | Facteurs de variation |
|---|---|---|
| Classification d’image (simple) | 0,02 à 0,10 $ | Nombre de catégories, ambiguïté |
| Bounding box | 0,05 à 0,25 $ | Nombre d’objets par image, densité |
| Segmentation sémantique | 0,50 à 5,00 $ | Résolution, nombre de classes, complexité des contours |
| Annotation 3D (LiDAR) | 1,00 à 10,00+ $ | Densité du nuage de points, nombre d’objets |
| Classification de texte | 0,02 à 0,10 $ | Longueur du texte, nombre de catégories |
| NER | 0,10 à 0,50 $ | Nombre de types d’entités, domaine spécialisé |
| Transcription audio (par minute) | 0,50 à 2,00 $ | Qualité audio, nombre de locuteurs, jargon technique |
| Annotation vidéo (par frame) | 0,05 à 0,50 $ | Nombre d’objets, tracking requis, fréquence d’annotation |
Externalisation vs in-house. L’externalisation représente environ 69% du marché du data labeling. Les prestataires spécialisés (Scale AI, Sama, Appen) offrent des délais plus courts, des garanties de qualité (jusqu’à 99,9% de précision annoncée) et une scalabilité que la plupart des équipes internes ne peuvent pas égaler. L’in-house se justifie quand les données sont trop sensibles pour sortir de l’entreprise (données médicales, défense) ou quand l’expertise domaine requise est trop pointue pour être externalisée.
Défis éthiques et réglementaires
Conditions de travail des annotateurs
Le data labeling repose massivement sur une main-d’œuvre peu visible, souvent localisée dans des pays à bas coûts (Kenya, Inde, Philippines). Les conditions de travail, la rémunération et l’exposition à du contenu traumatisant (modération de contenu violent ou abusif) sont des sujets de préoccupation croissante. Des enquêtes journalistiques ont mis en lumière des rémunérations de 1 à 2$ de l’heure pour des tâches pénibles. Les donneurs d’ordre ont une responsabilité éthique à vérifier les pratiques de leurs prestataires.
Biais dans l’annotation
Les annotateurs apportent leurs propres biais culturels et subjectifs. La perception de ce qui est « toxique », « approprié » ou « positif » varie selon le profil de l’annotateur. Diversifier l’équipe d’annotation, mesurer l’accord inter-annotateurs par sous-groupes, et documenter les biais connus sont des pratiques essentielles.
RGPD et confidentialité
Quand les données à annoter contiennent des informations personnelles (visages, données médicales, textes avec des noms), le RGPD impose des contraintes strictes : anonymisation avant labeling quand c’est possible, traçabilité complète (qui a annoté quoi, quand, où), et accords de traitement de données avec les prestataires. L’Union européenne a introduit de nouvelles directives spécifiques au labeling de données pour l’IA, renforçant les exigences de transparence et d’éthique dans le cadre de l’AI Act.
Bonnes pratiques
Investissez dans les guidelines. Passez du temps à rédiger des instructions claires avec des exemples positifs ET négatifs pour chaque cas limite. C’est le levier de qualité le plus sous-estimé.
Commencez petit, itérez. Annotez un lot pilote de 50 à 100 exemples, mesurez l’accord inter-annotateurs, affinez les guidelines, puis passez à l’échelle. Ne lancez jamais une campagne de labeling massive sans ce pilote.
Utilisez le pré-labeling. Un modèle pré-entraîné (ou un LLM) peut fournir des labels initiaux que les annotateurs corrigent. C’est systématiquement plus rapide que de partir d’une page blanche.
Mesurez la qualité en continu. Intégrez des exemples gold standard dans le flux, calculez les métriques d’accord régulièrement, et intervenez dès que la qualité baisse.
Versionnez vos annotations. Les labels évoluent (nouvelles catégories, corrections de masse, changement de guidelines). Versionnez vos datasets annotés comme vous versionnez votre code.
Documentez tout. Guidelines, composition de l’équipe d’annotation, métriques de qualité, biais identifiés. Cette documentation est indispensable pour la reproductibilité et la conformité réglementaire.
Questions fréquentes sur le data labeling
Quelle est la différence entre data labeling et annotation ?
En pratique, les deux termes sont interchangeables. Certains font une distinction subtile : le « labeling » désignerait l’attribution d’une étiquette globale (classification : « chat » ou « chien »), tandis que l' »annotation » impliquerait un marquage plus détaillé et localisé (bounding box, segmentation pixel par pixel, NER). Mais dans l’usage courant de l’industrie, « data labeling » et « data annotation » sont synonymes. Utilisez celui que préfère votre interlocuteur.
Combien de temps faut-il pour labeler un dataset ?
Cela dépend entièrement de la taille du dataset, de la complexité de la tâche et de l’approche. Pour de la classification d’images simple, un annotateur expérimenté peut traiter 1 000 à 2 000 images par heure. Pour de la segmentation sémantique, ce chiffre tombe à 10 à 50 images par heure. Avec du pré-labeling par IA, vous pouvez multiplier la productivité par 3 à 10 selon la qualité du modèle de pré-annotation et la complexité des corrections requises.
Peut-on remplacer totalement les annotateurs humains par l’IA ?
Pas encore, sauf pour les tâches les plus simples. Les foundation models excellent en classification de texte, en tagging d’images basique et en pré-annotation, mais ils échouent encore sur les cas ambigus, les domaines très spécialisés (médical, juridique) et les tâches safety-critical. La tendance est au pipeline hybride : l’IA fait 80% du travail, l’humain gère les 20% restants. Même dans ce scénario, la supervision humaine reste indispensable pour détecter les erreurs systématiques du modèle de labeling automatique.
Comment gérer le data labeling quand on a un petit budget ?
Plusieurs stratégies s’offrent à vous. Utilisez Label Studio (gratuit, open source) comme outil. Employez un LLM économique (Claude Haiku, GPT-4o mini) pour le pré-labeling automatique. Concentrez l’effort humain sur les cas que le LLM n’arrive pas à résoudre (active learning). Et si vous manquez de données labelisées, combinez weak supervision (Snorkel) avec un petit volume d’annotations manuelles de haute qualité. Le transfer learning et le fine-tuning permettent aussi d’obtenir de bons résultats avec beaucoup moins de données annotées.
Le labeling est-il différent pour le fine-tuning des LLM ?
Oui. Le fine-tuning d’un LLM nécessite des paires instruction/réponse de haute qualité, pas de simples étiquettes catégorielles. Les annotateurs doivent rédiger ou évaluer des réponses complètes, ce qui demande plus de compétences et de temps qu’un labeling classique. Pour l’alignement via RLHF ou DPO, il faut en plus des comparaisons de préférences : l’annotateur lit deux réponses et choisit la meilleure. Ce type de labeling est nettement plus cher et nécessite des annotateurs experts qui comprennent les nuances de qualité des réponses d’un LLM.