Apprentissage supervise : entrainer l’IA avec des donnees etiquetees

Definition rapide L’apprentissage supervise (supervised learning) est une methode d’entrainement d’un modele d’IA ou chaque exemple du dataset est accompagne de la reponse correcte attendue (le « label » ou « etiquette »). Le modele apprend a associer les entrees aux sorties en minimisant l’ecart entre ses predictions et les reponses reelles.

Categorie: Paradigme d’apprentissage / Machine Learning
Prerequis: Un dataset avec des paires (entree, sortie attendue)
Types de taches: Classification, regression, sequence-to-sequence
Alternatives: Non supervise, Par renforcement
Role dans les LLM: SFT (Supervised Fine-Tuning) post-pre-entrainement

Qu’est-ce que l’apprentissage supervise ?

L’apprentissage supervise est le paradigme le plus intuitif du machine learning. Son fonctionnement ressemble a celui d’un professeur qui corrige un eleve : vous montrez un exemple au modele, vous lui dites quelle est la bonne reponse, et le modele ajuste ses parametres pour se rapprocher de cette reponse.

Concretement, vous disposez d’un dataset compose de paires (X, Y) ou X est l’entree (une image, un texte, des donnees numeriques) et Y est la sortie attendue (une categorie, un nombre, une sequence). Le modele apprend une fonction f(X) qui approxime Y aussi precisement que possible.

L’apprentissage supervise est omnipresent dans l’IA moderne. La reconnaissance d’images, la detection de spam, la traduction automatique, la transcription vocale, les systemes de recommandation et le fine-tuning des LLM reposent tous sur ce paradigme.

Comment fonctionne l’apprentissage supervise

Le processus d’entrainement

1. Preparation des donnees. Collectez un dataset etiquete : des images avec leurs categories, des emails avec leur classification (spam/non spam), des textes avec leur sentiment (positif/negatif). La qualite de ces etiquettes est determinante pour la performance du modele.

2. Division du dataset. Separez les donnees en trois ensembles : entrainement (70-80 %), validation (10-15 %) et test (10-15 %). Le modele s’entraine sur le premier, s’optimise sur le deuxieme, et est evalue sur le troisieme qu’il n’a jamais vu.

3. Forward pass. Le modele recoit une entree X et genere une prediction Y’. La difference entre Y’ (prediction) et Y (verite) est mesuree par une fonction de perte (loss function).

4. Backpropagation. L’algorithme calcule comment chaque poids du modele contribue a l’erreur, puis ajuste tous les poids pour reduire cette erreur. C’est le coeur mathematique de l’apprentissage.

5. Iteration. Les etapes 3 et 4 sont repetees sur des milliers ou des millions d’exemples (epochs) jusqu’a ce que le modele atteigne une performance satisfaisante sur l’ensemble de validation.

Classification

La classification assigne une categorie discrete a une entree. C’est la tache supervisee la plus courante.

Exemples : detection de spam (spam / non spam), analyse de sentiment (positif / neutre / negatif), diagnostic medical (sain / pathologie A / pathologie B), reconnaissance d’objets dans une image (chat / chien / oiseau).

# Classification de sentiment avec scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Dataset etiquete
textes = [
    "Ce produit est excellent, je recommande",
    "Tres decu, ne fonctionne pas du tout",
    "Correct, rien de special",
    "Livraison rapide et produit de qualite",
    "Arnaque totale, a eviter"
]
labels = ["positif", "negatif", "neutre", "positif", "negatif"]

# Vectorisation + entrainement
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(textes)
model = LogisticRegression()
model.fit(X, labels)

# Prediction
nouveau_texte = vectorizer.transform(["Bon rapport qualite-prix"])
print(model.predict(nouveau_texte))  # -> "positif"

Regression

La regression predit une valeur numerique continue. Au lieu de classer dans une categorie, le modele estime un nombre.

Exemples : prediction du prix d’un bien immobilier, estimation du temps de trajet, prevision de la demande, scoring de credit.

Sequence-to-sequence

Les taches sequence-to-sequence transforment une sequence d’entree en une sequence de sortie de longueur potentiellement differente. C’est le paradigme de la traduction automatique, du resume de texte et de la transcription audio.

Le pre-entrainement des LLM est une forme d’apprentissage supervise a grande echelle : l’entree est une sequence de tokens, la sortie attendue est le token suivant. Chaque position dans le texte fournit un exemple d’entrainement.

L’apprentissage supervise dans les LLM

Supervised Fine-Tuning (SFT)

Apres le pre-entrainement, les LLM passent par une phase de Supervised Fine-Tuning (SFT) ou ils apprennent a suivre des instructions. Le dataset SFT contient des milliers de paires (instruction, reponse ideale) redigees ou validees par des humains.

{"instruction": "Resume ce texte en une phrase",
 "input": "L'intelligence artificielle connait une acceleration...",
 "output": "L'IA progresse rapidement grace aux LLM et au deep learning."}

{"instruction": "Traduis en anglais",
 "input": "Bonjour, comment allez-vous ?",
 "output": "Hello, how are you?"}

Le SFT transforme un modele de base (qui complete du texte de maniere generique) en un assistant capable de comprendre et d’executer des instructions. C’est ce qui fait la difference entre un modele brut comme LLaMA base et un modele instruit comme LLaMA Instruct.

Lien avec le RLHF

Le SFT est generalement suivi du RLHF ou du DPO, qui utilise l’apprentissage par renforcement pour affiner davantage le comportement. Le SFT donne au modele les bases (format, ton, suivi d’instructions), le RLHF l’affine selon les preferences humaines (qualite, securite, utilite).

Supervise vs Non supervise vs Renforcement

Critere	Supervise	Non supervise	Renforcement
Donnees	Etiquetees (X, Y)	Non etiquetees (X)	Environnement + recompenses
Objectif	Predire Y a partir de X	Decouvrir des structures	Maximiser une recompense
Exemples	Classification, regression	Clustering, reduction dim.	Jeux, robotique, RLHF
Cout annotation	Eleve (humains requis)	Nul	Moyen (definition recompense)
Performance	Elevee si bonnes donnees	Variable	Tres elevee si bien calibre
Role dans LLM	Pre-entrainement + SFT	Clustering, embeddings	RLHF, DPO, PPO

Les defis de l’apprentissage supervise

Le cout de l’etiquetage. Creer un dataset etiquete de haute qualite est couteux et chronophage. L’etiquetage d’images medicales necessite des medecins specialises. L’etiquetage de donnees juridiques necessite des juristes. Pour les LLM, la creation d’exemples SFT de qualite coute entre 5 et 50 $ par exemple selon la complexite.

Le biais dans les etiquettes. Si les annotateurs humains ont des biais (culturels, cognitifs, linguistiques), ces biais sont transmis au modele. Un dataset d’analyse de sentiment etiquete principalement par des locuteurs anglais peut mal generaliser sur des textes francais.

L’overfitting. Avec trop peu de donnees ou un modele trop complexe, le modele peut « memoriser » les exemples d’entrainement au lieu de generaliser. Il performera parfaitement sur les donnees d’entrainement mais echouera sur de nouvelles entrees. Les techniques de regularisation (dropout, data augmentation, early stopping) combattent ce probleme.

Le desequilibre des classes. Si votre dataset contient 95 % d’emails non-spam et 5 % de spam, le modele peut atteindre 95 % de precision en predisant simplement « non-spam » pour tout. Les techniques de reequilibrage (oversampling, undersampling, class weights) sont essentielles.

Bonnes pratiques

La qualite prime sur la quantite. 500 exemples parfaitement etiquetes produisent souvent un meilleur modele que 5 000 exemples avec des etiquettes bruitees. Investissez dans la qualite des annotations.

Diversifiez vos donnees. Couvrez l’ensemble des cas que le modele rencontrera en production. Les exemples atypiques (edge cases) sont aussi importants que les cas standards.

Gardez un ensemble de test intouche. Ne touchez jamais a l’ensemble de test pendant le developpement. Utilisez l’ensemble de validation pour optimiser les hyperparametres. L’ensemble de test ne sert qu’a l’evaluation finale.

Mesurez les bonnes metriques. La precision seule est souvent trompeuse. Utilisez la precision, le recall, le F1-score et la matrice de confusion pour une evaluation complete, surtout avec des classes desequilibrees.

FAQ

Le pre-entrainement des LLM est-il de l’apprentissage supervise ?

Oui, techniquement. Le pre-entrainement utilise une forme d’apprentissage supervise appelee « auto-supervision » : les etiquettes (le prochain token) sont extraites automatiquement du texte lui-meme, sans annotation humaine. Chaque position dans un texte fournit un exemple (entree = tokens precedents, sortie = token suivant). C’est de l’apprentissage supervise a une echelle massive, rendu possible par l’auto-generation des etiquettes.

Combien d’exemples faut-il pour un apprentissage supervise efficace ?

Cela depend de la complexite de la tache. Pour un classificateur binaire simple (spam/non-spam), quelques centaines d’exemples suffisent. Pour une classification multi-classes complexe, comptez quelques milliers par classe. Pour le SFT d’un LLM, Anthropic et OpenAI recommandent un minimum de 50 a 100 exemples, avec un sweet spot autour de 500 a 2 000 exemples de haute qualite. Les modeles deep learning necessitent generalement plus de donnees que les algorithmes classiques.

Peut-on combiner apprentissage supervise et non supervise ?

Oui, c’est meme la norme dans les LLM modernes. Le pre-entrainement utilise l’auto-supervision (non etiquete). Le SFT utilise l’apprentissage supervise (etiquete). Le RLHF utilise l’apprentissage par renforcement. L’apprentissage semi-supervise utilise un petit dataset etiquete + un grand dataset non etiquete. Le transfert learning (utiliser un modele pre-entraine comme base) combine les deux paradigmes.

L’apprentissage supervise est-il toujours la meilleure approche ?

Pas toujours. Si vous n’avez pas de donnees etiquetees, l’apprentissage non supervise (clustering, detection d’anomalies) est la seule option. Si votre tache implique une prise de decision sequentielle (robotique, jeux), l’apprentissage par renforcement est plus adapte. L’apprentissage supervise excelle quand vous avez des donnees etiquetees de qualite et un objectif clair de prediction.

Quelle est la difference entre SFT et fine-tuning ?

Le SFT (Supervised Fine-Tuning) est un type specifique de fine-tuning. Le fine-tuning est le terme general pour tout re-entrainement d’un modele pre-entraine. Le SFT designe specifiquement le fine-tuning sur des paires instruction/reponse supervisees. D’autres formes de fine-tuning existent : le RLHF fine-tune avec des preferences, le DPO fine-tune avec des comparaisons, le fine-tuning continu adapte a de nouvelles donnees.