Autoencoder (Auto-encodeur)

Definition Un autoencoder (auto-encodeur) est un reseau de neurones entraine a reproduire son entree en sortie en passant par une representation intermediaire compresse (l’espace latent). Il se compose d’un encodeur qui compresse les donnees et d’un decodeur qui les reconstruit.

Propriete	Detail
Categorie	Deep learning, apprentissage de representations
Origine	Annees 1980 (Rumelhart, Hinton, Williams)
Principe	Compression puis reconstruction des donnees
Apprentissage	Non supervise (ou auto-supervise)
Variantes	VAE, Denoising AE, Sparse AE, Contractive AE, VQ-VAE
Applications	Compression, debruitage, detection d’anomalies, pretraining

Architecture de base

Un autoencoder est compose de trois parties. L’encodeur f(x) transforme l’entree x en une representation latente z de dimension inferieure (le « goulot d’etranglement » ou bottleneck). L’espace latent contient la representation compresse z. Le decodeur g(z) reconstruit une approximation x’ de l’entree originale a partir de z.

L’objectif d’entrainement est de minimiser l’erreur de reconstruction entre x et x’, typiquement mesuree par la MSE (Mean Squared Error) pour des donnees continues ou la binary cross-entropy pour des donnees binaires. Le modele apprend de maniere non supervisee : il n’a besoin que des donnees elles-memes, sans labels.

La contrainte cle est que la dimension de l’espace latent est inferieure a celle de l’entree. Cette compression force le reseau a apprendre les features les plus importantes des donnees, en ignorant le bruit et les details non essentiels. Si l’espace latent etait aussi grand que l’entree, le reseau pourrait simplement copier les donnees sans rien apprendre.

Types d’autoencoders

Autoencoder simple (undercomplete)

L’autoencoder le plus basique reduit simplement la dimensionnalite. Avec des couches lineaires, il est mathematiquement equivalent a la PCA. Avec des couches non lineaires (ReLU, etc.), il capture des relations plus complexes que la PCA et apprend une representation non lineaire des donnees.

Denoising Autoencoder (DAE)

Le denoising autoencoder recoit en entree une version corrompue (bruitee) des donnees et doit reconstruire la version originale propre. Le bruit est ajoute artificiellement (gaussian noise, masking, salt-and-pepper). Cette approche force le modele a apprendre des representations robustes plutot que de simplement memoriser les donnees. Les DAE ont ete un precurseur important des modeles de diffusion, qui peuvent etre vus comme une generalisation a multiples niveaux de bruit.

Sparse Autoencoder

Le sparse autoencoder ajoute une contrainte de parcimonie sur les activations de l’espace latent : seule une fraction des neurones latents doit etre active pour chaque entree. Cette contrainte (implementee via une penalite L1 ou une penalite KL) produit des representations ou chaque dimension capture un aspect specifique des donnees. Les sparse autoencoders sont aujourd’hui tres utilises en recherche sur l’interpretabilite des LLMs pour decomposer les representations internes des modeles.

Contractive Autoencoder

Le contractive autoencoder ajoute une penalite sur la norme du Jacobien de l’encodeur par rapport a l’entree. Cela rend les representations latentes robustes aux petites perturbations de l’entree, en apprenant une representation localement invariante.

Variational Autoencoder (VAE)

Le VAE est la variante generative la plus importante. Au lieu d’encoder en un vecteur fixe, le VAE encode en une distribution (moyenne + variance), regularisee par une KL-divergence contre une prior gaussienne. Cette regularisation produit un espace latent continu et generable. Le VAE est un composant essentiel de Stable Diffusion.

VQ-VAE (Vector Quantized VAE)

Le VQ-VAE discretise l’espace latent en utilisant un codebook de vecteurs appris. L’encodeur produit un vecteur continu qui est ensuite « quantifie » au vecteur le plus proche du codebook. Cette discretisation permet d’utiliser des modeles autogressifs (comme PixelCNN) pour modeliser la distribution dans l’espace latent, combinant la compression efficace de l’autoencoder avec la puissance generative des modeles autogressifs.

Applications pratiques

Compression et reduction de dimensionnalite

Les autoencoders apprennent des compressions plus efficaces que les methodes lineaires comme la PCA pour les donnees complexes. Ils sont utilises pour la compression d’images, la compression de features pour le stockage et la recherche (par exemple dans les bases de donnees vectorielles), et la visualisation de donnees haute dimension.

Detection d’anomalies

Un autoencoder entraine sur des donnees normales apprend a les reconstruire efficacement. Quand il recoit une donnee anormale (jamais vue pendant l’entrainement), l’erreur de reconstruction est elevee. Ce principe est largement utilise en maintenance predictive industrielle, en cybersecurite (detection d’intrusions), et en controle qualite (detection de defauts visuels).

Debruitage

Les denoising autoencoders excellent dans le nettoyage d’images bruitees, la restauration de documents scannes, et la suppression d’artefacts audio. Le principe est simple : le modele a appris a reconstruire des versions propres a partir d’entrees corrompues.

Pretraining et transfer learning

Avant l’ere du pre-entrainement a grande echelle des Transformers, les autoencoders etaient utilises pour le pretraining couche par couche des reseaux profonds (stacked autoencoders). Bien que cette technique soit moins utilisee aujourd’hui, le principe d’apprentissage de representations par reconstruction reste fondamental, notamment dans les approches de BERT (masked language modeling, qui est une forme de denoising autoencoder sur du texte).

Role dans les architectures modernes

En 2026, les autoencoders sont des composants essentiels de systemes plus grands. Le VAE de Stable Diffusion est l’exemple le plus visible. Les autoencoders de tokenisation visuelle (comme ceux de Flux ou DALL-E) transforment des images en sequences de tokens discrets pour les architectures Transformer. Les sparse autoencoders sont utilises par Anthropic et d’autres pour l’interpretabilite des LLMs.

Astuce Polydesk Pour comprendre les autoencoders, commencez par en implementer un simple en PyTorch sur le dataset MNIST. C’est un exercice fondamental en deep learning qui prend moins d’une heure et illustre parfaitement les concepts de compression, espace latent et reconstruction.

Autoencoder vs PCA

Critere	Autoencoder	PCA
Type de transformation	Non lineaire (avec activations)	Lineaire
Expressivite	Capture des relations complexes	Limite aux correlations lineaires
Interpretabilite	Faible (boite noire)	Bonne (composantes ordonnees par variance)
Cout d’entrainement	Eleve (GPU, hyperparametres)	Faible (calcul analytique)
Generalisation	Peut overfitter sur peu de donnees	Pas d’overfitting (solution analytique)

Questions frequentes

Quelle est la difference entre un autoencoder et un VAE ?

Un autoencoder classique encode en un vecteur fixe et optimise uniquement la reconstruction. Un VAE encode en une distribution probabiliste (moyenne + variance) et ajoute une regularisation KL qui structure l’espace latent. Le VAE peut generer de nouvelles donnees par echantillonnage, pas l’autoencoder classique.

Un autoencoder est-il supervise ou non supervise ?

Un autoencoder est un modele d’apprentissage non supervise (ou auto-supervise) : il n’a besoin d’aucun label. Le signal de supervision est la donnee elle-meme, puisque l’objectif est de reconstruire l’entree en sortie.

A quoi sert l’espace latent d’un autoencoder ?

L’espace latent contient une representation compresse des donnees qui capture les features les plus importantes. Il peut etre utilise pour la visualisation, la recherche par similarite, l’interpolation entre donnees, la detection d’anomalies, ou comme entree pour d’autres modeles (classification, clustering).

Pourquoi utiliser un denoising autoencoder ?

Le denoising autoencoder force le modele a apprendre des representations robustes en le contraignant a reconstruire des donnees propres a partir d’entrees corrompues. Cela empeche la simple memorisation et produit de meilleures representations pour les taches en aval. C’est aussi le principe fondateur des modeles de diffusion.

Les autoencoders sont-ils encore utilises en 2026 ?

Oui, abondamment. Le VAE est un composant cle de Stable Diffusion. Les sparse autoencoders sont un outil majeur pour la recherche en interpretabilite des LLMs. Les autoencoders de tokenisation visuelle sont utilises dans les modeles de generation d’images. La detection d’anomalies par autoencoder reste une technique standard en industrie.