Autoencoder (Auto-encodeur)
| Propriete | Detail |
|---|---|
| Categorie | Deep learning, apprentissage de representations |
| Origine | Annees 1980 (Rumelhart, Hinton, Williams) |
| Principe | Compression puis reconstruction des donnees |
| Apprentissage | Non supervise (ou auto-supervise) |
| Variantes | VAE, Denoising AE, Sparse AE, Contractive AE, VQ-VAE |
| Applications | Compression, debruitage, detection d’anomalies, pretraining |
Architecture de base
Un autoencoder est compose de trois parties. L’encodeur f(x) transforme l’entree x en une representation latente z de dimension inferieure (le « goulot d’etranglement » ou bottleneck). L’espace latent contient la representation compresse z. Le decodeur g(z) reconstruit une approximation x’ de l’entree originale a partir de z.
L’objectif d’entrainement est de minimiser l’erreur de reconstruction entre x et x’, typiquement mesuree par la MSE (Mean Squared Error) pour des donnees continues ou la binary cross-entropy pour des donnees binaires. Le modele apprend de maniere non supervisee : il n’a besoin que des donnees elles-memes, sans labels.
La contrainte cle est que la dimension de l’espace latent est inferieure a celle de l’entree. Cette compression force le reseau a apprendre les features les plus importantes des donnees, en ignorant le bruit et les details non essentiels. Si l’espace latent etait aussi grand que l’entree, le reseau pourrait simplement copier les donnees sans rien apprendre.
Types d’autoencoders
Autoencoder simple (undercomplete)
L’autoencoder le plus basique reduit simplement la dimensionnalite. Avec des couches lineaires, il est mathematiquement equivalent a la PCA. Avec des couches non lineaires (ReLU, etc.), il capture des relations plus complexes que la PCA et apprend une representation non lineaire des donnees.
Denoising Autoencoder (DAE)
Le denoising autoencoder recoit en entree une version corrompue (bruitee) des donnees et doit reconstruire la version originale propre. Le bruit est ajoute artificiellement (gaussian noise, masking, salt-and-pepper). Cette approche force le modele a apprendre des representations robustes plutot que de simplement memoriser les donnees. Les DAE ont ete un precurseur important des modeles de diffusion, qui peuvent etre vus comme une generalisation a multiples niveaux de bruit.
Sparse Autoencoder
Le sparse autoencoder ajoute une contrainte de parcimonie sur les activations de l’espace latent : seule une fraction des neurones latents doit etre active pour chaque entree. Cette contrainte (implementee via une penalite L1 ou une penalite KL) produit des representations ou chaque dimension capture un aspect specifique des donnees. Les sparse autoencoders sont aujourd’hui tres utilises en recherche sur l’interpretabilite des LLMs pour decomposer les representations internes des modeles.
Contractive Autoencoder
Le contractive autoencoder ajoute une penalite sur la norme du Jacobien de l’encodeur par rapport a l’entree. Cela rend les representations latentes robustes aux petites perturbations de l’entree, en apprenant une representation localement invariante.
Variational Autoencoder (VAE)
Le VAE est la variante generative la plus importante. Au lieu d’encoder en un vecteur fixe, le VAE encode en une distribution (moyenne + variance), regularisee par une KL-divergence contre une prior gaussienne. Cette regularisation produit un espace latent continu et generable. Le VAE est un composant essentiel de Stable Diffusion.
VQ-VAE (Vector Quantized VAE)
Le VQ-VAE discretise l’espace latent en utilisant un codebook de vecteurs appris. L’encodeur produit un vecteur continu qui est ensuite « quantifie » au vecteur le plus proche du codebook. Cette discretisation permet d’utiliser des modeles autogressifs (comme PixelCNN) pour modeliser la distribution dans l’espace latent, combinant la compression efficace de l’autoencoder avec la puissance generative des modeles autogressifs.
Applications pratiques
Compression et reduction de dimensionnalite
Les autoencoders apprennent des compressions plus efficaces que les methodes lineaires comme la PCA pour les donnees complexes. Ils sont utilises pour la compression d’images, la compression de features pour le stockage et la recherche (par exemple dans les bases de donnees vectorielles), et la visualisation de donnees haute dimension.
Detection d’anomalies
Un autoencoder entraine sur des donnees normales apprend a les reconstruire efficacement. Quand il recoit une donnee anormale (jamais vue pendant l’entrainement), l’erreur de reconstruction est elevee. Ce principe est largement utilise en maintenance predictive industrielle, en cybersecurite (detection d’intrusions), et en controle qualite (detection de defauts visuels).
Debruitage
Les denoising autoencoders excellent dans le nettoyage d’images bruitees, la restauration de documents scannes, et la suppression d’artefacts audio. Le principe est simple : le modele a appris a reconstruire des versions propres a partir d’entrees corrompues.
Pretraining et transfer learning
Avant l’ere du pre-entrainement a grande echelle des Transformers, les autoencoders etaient utilises pour le pretraining couche par couche des reseaux profonds (stacked autoencoders). Bien que cette technique soit moins utilisee aujourd’hui, le principe d’apprentissage de representations par reconstruction reste fondamental, notamment dans les approches de BERT (masked language modeling, qui est une forme de denoising autoencoder sur du texte).
Role dans les architectures modernes
En 2026, les autoencoders sont des composants essentiels de systemes plus grands. Le VAE de Stable Diffusion est l’exemple le plus visible. Les autoencoders de tokenisation visuelle (comme ceux de Flux ou DALL-E) transforment des images en sequences de tokens discrets pour les architectures Transformer. Les sparse autoencoders sont utilises par Anthropic et d’autres pour l’interpretabilite des LLMs.
Autoencoder vs PCA
| Critere | Autoencoder | PCA |
|---|---|---|
| Type de transformation | Non lineaire (avec activations) | Lineaire |
| Expressivite | Capture des relations complexes | Limite aux correlations lineaires |
| Interpretabilite | Faible (boite noire) | Bonne (composantes ordonnees par variance) |
| Cout d’entrainement | Eleve (GPU, hyperparametres) | Faible (calcul analytique) |
| Generalisation | Peut overfitter sur peu de donnees | Pas d’overfitting (solution analytique) |
Questions frequentes
Quelle est la difference entre un autoencoder et un VAE ?
Un autoencoder classique encode en un vecteur fixe et optimise uniquement la reconstruction. Un VAE encode en une distribution probabiliste (moyenne + variance) et ajoute une regularisation KL qui structure l’espace latent. Le VAE peut generer de nouvelles donnees par echantillonnage, pas l’autoencoder classique.
Un autoencoder est-il supervise ou non supervise ?
Un autoencoder est un modele d’apprentissage non supervise (ou auto-supervise) : il n’a besoin d’aucun label. Le signal de supervision est la donnee elle-meme, puisque l’objectif est de reconstruire l’entree en sortie.
A quoi sert l’espace latent d’un autoencoder ?
L’espace latent contient une representation compresse des donnees qui capture les features les plus importantes. Il peut etre utilise pour la visualisation, la recherche par similarite, l’interpolation entre donnees, la detection d’anomalies, ou comme entree pour d’autres modeles (classification, clustering).
Pourquoi utiliser un denoising autoencoder ?
Le denoising autoencoder force le modele a apprendre des representations robustes en le contraignant a reconstruire des donnees propres a partir d’entrees corrompues. Cela empeche la simple memorisation et produit de meilleures representations pour les taches en aval. C’est aussi le principe fondateur des modeles de diffusion.
Les autoencoders sont-ils encore utilises en 2026 ?
Oui, abondamment. Le VAE est un composant cle de Stable Diffusion. Les sparse autoencoders sont un outil majeur pour la recherche en interpretabilite des LLMs. Les autoencoders de tokenisation visuelle sont utilises dans les modeles de generation d’images. La detection d’anomalies par autoencoder reste une technique standard en industrie.