Distillation (Knowledge Distillation)

La knowledge distillation (distillation de connaissances) est une technique de compression de modèles où un petit modèle « étudiant » (student) est entraîné à reproduire le comportement d’un grand modèle « professeur » (teacher), plus puissant mais plus coûteux. L’objectif : obtenir un modèle compact, rapide et déployable, avec des performances proches du modèle original.

Catégorie: Compression de modèles / Deep Learning
Principe: Un grand modèle (teacher) transfère ses connaissances à un petit modèle (student)
Introduit par: Hinton, Vinyals et Dean (2015), concept initial par Buciluă et al. (2006)
Types: Logit-based (sorties softmax), feature-based (activations intermédiaires), relation-based (structure)
Exemples célèbres: DistilBERT (40 % plus petit, 60 % plus rapide que BERT), TinyLLM, modèles students OpenAI/DeepSeek
Rapport typique: Perte de 1-2 % de précision pour une réduction de 50 % du temps d’inférence

Qu’est-ce que la distillation ?

Vous avez un modèle de 70 milliards de paramètres qui excelle en classification de texte, mais il coûte trop cher à déployer en production (GPU puissant, latence élevée, coût par requête prohibitif). Vous ne pouvez pas simplement réduire sa taille sans perdre ses performances. La distillation résout ce dilemme.

L’idée clé de Hinton et al. (2015) est que les connaissances d’un modèle ne résident pas uniquement dans ses prédictions « dures » (classe correcte), mais aussi dans ses prédictions « douces » (distributions de probabilités sur toutes les classes). Quand un modèle classifie une image de chat et prédit « chat : 0.85, tigre : 0.10, chien : 0.04, oiseau : 0.01 », les probabilités non-gagnantes contiennent de l’information précieuse : le chat ressemble un peu à un tigre, peu à un chien, et pas du tout à un oiseau. Ces « dark knowledge » (connaissances sombres) sont ce que le student apprend du teacher.

Comment fonctionne la distillation

Le temperature scaling : la clé technique

Les probabilités de sortie d’un modèle classique (après softmax) sont souvent très « piquées » : la classe correcte a une probabilité proche de 1, et toutes les autres sont quasi-nulles. Cela ne laisse pas beaucoup d’information utile pour le student.

La solution est le temperature scaling : on divise les logits (sorties brutes avant softmax) par un paramètre de température T > 1 avant d’appliquer la softmax. Une température élevée (T=5 ou T=10) « adoucit » la distribution, rendant les probabilités des classes non-gagnantes plus visibles. Le student apprend ces distributions adoucies, qui contiennent bien plus d’information sur les relations entre classes.

La perte d’entraînement du student combine typiquement deux termes : la soft loss (correspondance avec les sorties adoucies du teacher, pondérée par α) et la hard loss (correspondance avec les labels réels, pondérée par β). Les hyperparamètres courants sont une température T entre 2 et 5, et un équilibre α ≈ 0.5, β ≈ 0.5, ajustable selon le domaine.

Les trois types de distillation

Type	Ce que le student apprend	Complexité	Usage
Logit-based	Les distributions de probabilités (soft targets) du teacher	Simple	Le plus courant, fonctionne avec n’importe quelle architecture
Feature-based	Les activations intermédiaires (features maps) de couches spécifiques du teacher	Modéré	Quand les features internes portent de l’information riche (CNN, Transformers)
Relation-based	Les relations structurelles entre les features ou entre les exemples	Avancé	Quand les relations inter-exemples sont importantes (embedding spaces)

La distillation feature-based aligne les représentations intermédiaires du student avec celles du teacher, souvent avec une perte L2 ou cosinus. C’est l’approche utilisée par DistilBERT, qui a montré qu’on pouvait réduire BERT de 40 % en taille et 60 % en temps d’inférence tout en conservant 97 % de ses performances.

Pour les LLMs, la distillation attention-based encourage le student à reproduire les cartes d’attention du teacher, capturant les patterns de focus sur les tokens importants.

La distillation pour les LLMs

La distillation est devenue une pratique standard pour les grands modèles de langage. L’enjeu : transférer les capacités de raisonnement, de style, et d’alignement de modèles massifs (GPT-5.4, Claude Opus 4.6) vers des modèles plus petits et déployables.

White-box distillation

Quand vous avez accès aux poids et aux logits du teacher (modèle open source), vous pouvez faire de la distillation classique : aligner les logits, les features intermédiaires, et les cartes d’attention du student avec celles du teacher. Des travaux récents (2025) optimisent les fonctions de perte (variantes de KL divergence, α-β divergence) pour mieux gérer le déséquilibre entre les modes du teacher et ceux du student.

Black-box distillation

Quand le teacher est un modèle propriétaire accessible uniquement via API (GPT-5.4, Gemini), vous n’avez accès qu’à ses sorties textuelles. La distillation black-box consiste à générer un dataset d’entraînement pour le student en utilisant les réponses du teacher comme labels. C’est le processus utilisé par de nombreux modèles open source qui apprennent en imitant les sorties de GPT-4.

La variante Distilling Step-by-Step utilise les rationnels (raisonnements étape par étape) générés par le teacher comme supervision supplémentaire, pas seulement ses réponses finales. Le student apprend non seulement quoi répondre, mais comment raisonner pour y arriver.

Multi-teacher distillation

Au lieu d’un seul teacher, des ensembles de teachers (chacun expert dans un domaine différent) transmettent leurs connaissances au student. Cette approche réduit le biais vers les faiblesses d’un teacher unique. Des travaux récents (2026) utilisent des routeurs basés sur la similarité ou le reinforcement learning pour sélectionner dynamiquement quel teacher consulter pour chaque exemple.

Distillation adaptative

AdaptDistill (2025) introduit une distillation adaptative où le teacher ajuste ses explications en fonction des erreurs spécifiques du student. Au lieu de fournir les mêmes rationnels à tous les students, le teacher identifie les faiblesses de chaque student et génère des explications ciblées. C’est une forme de pédagogie personnalisée appliquée à la distillation.

Distillation + Curriculum Learning Des travaux récents (POCL, 2025) combinent la distillation avec le curriculum learning pour les LLMs. Le student apprend d’abord les exemples faciles du teacher, puis progresse vers les exemples difficiles, inspiré du principe de « surcharge progressive » en musculation. Cette approche réduit le catastrophic forgetting et le mode collapse qui affectent la distillation classique des LLMs.

Distillation vs Fine-tuning vs Pruning vs Quantization

Technique	Principe	Réduction typique	Impact sur la précision
Distillation	Entraîner un modèle plus petit à imiter un grand	2x à 10x en taille	Faible (1-2 % de perte)
Fine-tuning	Adapter un modèle existant à une tâche	Aucune (même taille)	Amélioration
Pruning	Supprimer les poids/neurones non essentiels	2x à 5x en taille	Modéré
Quantization	Réduire la précision numérique des poids	2x à 4x en mémoire	Faible à modéré

Ces techniques sont complémentaires. Un pipeline de compression typique en 2026 : distiller un modèle 70B en 7B, appliquer du pruning pour réduire à 5B, puis quantizer en 4-bit pour un déploiement mobile. Chaque étape réduit la taille et le coût sans perte catastrophique de qualité.

Applications concrètes

Compression de LLMs pour la production. Amazon Bedrock, DeepSeek, et OpenAI utilisent tous la distillation pour créer des modèles students déployables à moindre coût. Parmi les exemples les plus connus :

Modèle distillé	Teacher	Réduction	Performance retenue
DistilBERT	BERT-base (110M)	40 % plus petit, 60 % plus rapide	~97 % des performances
TinyLLaMA (1.1B)	LLaMA 2 (7B+)	6x plus petit	Compétitif sur les tâches simples
Phi-3 Mini (3.8B)	Données synthétiques GPT-4	Modèle compact frontier	Surpasse des modèles 7B sur certains benchmarks
DeepSeek V3.2 distilled	DeepSeek V3.2 complet	Modèle compact MoE	Performances très compétitives à faible coût

Déploiement embarqué et mobile. Les modèles distillés sont essentiels pour le déploiement sur smartphones, appareils IoT, et edge devices. Un modèle distillé peut tourner sur un CPU mobile là où le teacher nécessiterait un GPU serveur.

Réduction des coûts d’inférence. Passer d’un modèle 70B à un modèle distillé 7B réduit le coût d’inférence d’environ 10x. Pour les applications à fort volume (chatbots, classification en temps réel), c’est un levier économique majeur.

Transfert de capacités propriétaires vers l’open source. La distillation black-box est le mécanisme par lequel les capacités des modèles propriétaires (GPT-4, Claude) sont transférées vers des modèles open source. C’est le moteur de l’écosystème open source des LLMs.

Privacy-preserving AI. Le teacher génère des données synthétiques d’entraînement pour le student, éliminant le besoin d’exposer les données sensibles originales. C’est particulièrement pertinent en médical et en finance.

Continual learning. Des datasets distillés résumant les tâches passées aident à atténuer le catastrophic forgetting quand le modèle apprend de nouvelles tâches de manière incrémentale.

Dataset distillation : l’autre facette

À côté de la knowledge distillation (compresser un modèle), la dataset distillation (compresser un dataset) est un domaine en croissance. L’objectif : synthétiser un petit dataset compact qui capture l’essence d’un grand dataset, de sorte qu’un modèle entraîné sur le dataset distillé performe presque aussi bien que s’il avait été entraîné sur le dataset complet.

Les techniques incluent le gradient matching (le dataset synthétique doit produire les mêmes gradients que le dataset réel), la régularisation en espace latent, et la synthèse générative. Les applications sont multiples : accélérer la recherche d’architecture neuronale (NAS), le tuning d’hyperparamètres, le continual learning (résumer les tâches passées dans un dataset compact), et la préservation de la vie privée (le dataset distillé ne contient pas les données originales).

Une survey complète (PMC, 2025) note que l’intégration KD + DD est une direction prometteuse : distiller simultanément le modèle et le dataset pour une compression maximale à tous les niveaux.

La distillation en 2026

La distillation est devenue un outil standard de l’écosystème IA :

La distillation de LLMs est industrialisée. Amazon Bedrock propose la distillation de modèles comme service. DeepSeek utilise la distillation pour créer des modèles compacts à très faible coût. La pratique s’est banalisée : toute entreprise qui déploie un LLM en production considère la distillation comme une option d’optimisation standard.

La distillation adaptative et progressive. Les approches statiques (un teacher fixe, un student fixe) cèdent la place à des approches dynamiques : le teacher s’adapte aux besoins du student (AdaptDistill), la distillation progresse des exemples faciles aux difficiles (POCL), et des teachers intermédiaires comblent le « capacity gap » (progressive distillation).

Multi-teacher et routing. Au lieu d’un seul teacher, des ensembles de teachers spécialisés transmettent leurs connaissances. Des routeurs (basés sur la similarité ou le RL) sélectionnent dynamiquement quel teacher consulter pour chaque exemple, maximisant la diversité des connaissances transférées.

Combinaison avec d’autres techniques de compression. La distillation est rarement utilisée seule. Le pipeline standard en 2026 combine distillation + pruning + quantization pour une compression maximale. Les réductions cumulées de taille et de coût peuvent atteindre 10x à 50x par rapport au modèle original.

Limites

Le « capacity gap ». Si le student est trop petit par rapport au teacher, il ne peut pas capturer toute la complexité des connaissances du teacher. La distillation progressive (intermediate teachers) atténue ce problème en utilisant des modèles de taille décroissante comme intermédiaires.

Dépendance à la qualité du teacher. Un teacher biaisé ou peu performant transmet ses défauts au student. La distillation multi-teacher réduit ce risque en diversifiant les sources de connaissances.

Coût d’entraînement. La distillation nécessite de faire tourner le teacher sur l’ensemble des données d’entraînement pour générer les soft targets, ce qui peut être coûteux pour les très grands modèles.

Perte de capacités émergentes. Les capacités émergentes des très grands LLMs (raisonnement complexe, créativité) ne se distillent pas toujours bien vers des modèles plus petits. Certaines capacités semblent nécessiter une taille minimale de modèle pour exister.

Questions fréquentes sur la distillation

Quelle est la différence entre distillation et fine-tuning ?

Le fine-tuning adapte un modèle existant à une nouvelle tâche en modifiant ses poids avec de nouvelles données. La taille du modèle ne change pas. La distillation crée un nouveau modèle plus petit (le student) qui imite le comportement d’un grand modèle (le teacher). Le fine-tuning optimise les performances, la distillation optimise l’efficacité. Les deux sont complémentaires : on peut distiller un modèle puis le fine-tuner pour une tâche spécifique.

Combien de performances perd-on avec la distillation ?

Typiquement 1 à 5 % de précision pour une réduction de 50 à 90 % de la taille et du temps d’inférence. DistilBERT conserve 97 % des performances de BERT avec 40 % de paramètres en moins. Pour les LLMs, les résultats varient : la distillation de tâches bien définies (classification, extraction) fonctionne bien, mais la distillation du raisonnement complexe reste difficile. Le ratio exact dépend de la taille du student, de la qualité des données, et de la technique utilisée.

La distillation fonctionne-t-elle avec des modèles propriétaires (black-box) ?

Oui, via la distillation black-box. Vous utilisez l’API du teacher (GPT-5.4, Gemini) pour générer des réponses sur votre dataset, puis vous entraînez un student open source sur ces réponses. C’est la méthode standard pour créer des modèles spécialisés à partir de modèles propriétaires. Des techniques comme Distilling Step-by-Step améliorent cette approche en utilisant aussi les raisonnements du teacher, pas seulement ses réponses finales.

Quelle est la différence entre distillation et pruning ?

Le pruning réduit un modèle existant en supprimant les poids ou neurones jugés non essentiels. La distillation entraîne un nouveau modèle plus petit from scratch. Le pruning garde l’architecture et enlève des morceaux, la distillation crée une nouvelle architecture. Les deux techniques sont complémentaires et souvent utilisées ensemble dans les pipelines de compression.

Comment choisir la taille du student ?

Il n’y a pas de règle universelle. Un ratio teacher/student de 2x à 10x est courant. Si le student est trop petit (>10x plus petit), le « capacity gap » peut rendre la distillation inefficace. Si le student est trop grand (< 2x plus petit), le gain en efficacité ne justifie pas l'effort. En pratique, testez plusieurs tailles de student et mesurez le compromis précision/vitesse sur votre tâche. La distillation progressive (teacher → intermediate → student) aide à franchir les grands gaps de taille.