Sound Separation (Séparation de Sources Audio)

La sound separation (ou source separation, stem separation, audio demixing) est une technique d’IA qui décompose un enregistrement audio mixé en ses composants individuels : voix, batterie, basse, guitare et autres instruments, chaque élément étant isolé dans un fichier audio séparé appelé « stem ».

Pendant des décennies, séparer les instruments d’un mix final était considéré comme impossible sans accès aux pistes d’enregistrement originales. Les ingénieurs du son recouraient à des astuces limitées (inversion de phase, EQ chirurgical) avec des résultats médiocres. Le deep learning a changé la donne. En 2026, des modèles comme Demucs (Meta AI) atteignent une qualité proche du studio, permettant à quiconque d’isoler les voix d’une chanson, d’extraire une ligne de basse pour le sampling ou de créer une version karaoké en quelques minutes.

Aussi appelé: Source separation, stem separation, audio demixing, stem splitting
Modèle de référence: Demucs v4 / HTDemucs (Meta AI), open source, MIT
Stems standard: Voix, batterie, basse, « other » (4 stems) ; guitare + piano en option (6 stems)
Métrique: SDR (Signal-to-Distortion Ratio) en dB, plus c’est élevé mieux c’est
Outils en ligne: LALAL.AI, Moises, StemSplit, BandLab, iZotope RX
Intégré dans: Logic Pro (Apple), Ableton, Suno, ElevenLabs

Comment fonctionne la séparation de sources

La séparation de sources audio repose sur des réseaux de neurones profonds entraînés sur des centaines de morceaux dont les pistes individuelles (stems) sont disponibles séparément. Le modèle apprend les « empreintes spectrales » de chaque type de source : les patterns fréquentiels caractéristiques de la voix humaine, les transitoires percussives de la batterie, les fondamentales profondes de la basse.

1. Analyse spectrale

L’audio mixé est converti en spectrogramme (représentation temps-fréquence). Le réseau de neurones analyse ce spectrogramme pour identifier les régions fréquentielles qui appartiennent à chaque source. C’est un problème conceptuellement similaire à la classification audio, mais au lieu de prédire une étiquette globale, le modèle doit prédire, pour chaque point temps-fréquence, quelle source le « possède ».

2. Masquage

Le modèle produit des « masques » pour chaque source : des matrices qui indiquent, pour chaque point du spectrogramme, la proportion du signal qui appartient à la voix, à la batterie, à la basse, etc. En multipliant le spectrogramme original par chaque masque, on obtient le spectrogramme isolé de chaque source.

3. Resynthèse

Chaque spectrogramme masqué est reconverti en signal audio (waveform). Les modèles modernes comme Demucs opèrent simultanément dans le domaine temporel (waveform brut) et le domaine fréquentiel (spectrogramme), ce qui préserve mieux les informations de phase et produit des stems plus naturels.

L’architecture hybride de Demucs v4 HTDemucs (Hybrid Transformer Demucs) utilise deux U-Nets en parallèle : l’un traite le signal temporel brut, l’autre traite le spectrogramme. Un encodeur Transformer central avec attention croisée entre les deux domaines fusionne les informations. Cette architecture atteint un SDR global de 9,20 dB sur le benchmark MUSDB18-HQ, le meilleur score publié pour un modèle open source.

Les modèles et outils de séparation

Demucs (Meta AI) : le standard

Demucs est le modèle de référence pour la séparation musicale. Développé par Meta AI Research et publié sous licence MIT, il sépare un mix en 4 stems (voix, batterie, basse, « other ») avec la meilleure qualité disponible en open source. La version htdemucs_ft (fine-tuned) offre une qualité légèrement supérieure au prix d’un temps de traitement 4x plus long. Une version expérimentale à 6 stems ajoute guitare et piano (le piano restant moins fiable).

L’installation est simple : pip install demucs puis demucs votre_chanson.mp3. Un GPU NVIDIA est fortement recommandé (5 à 10x plus rapide qu’un CPU). Le modèle accepte MP3, WAV, FLAC, OGG et tous les formats décodables par FFmpeg.

# Installation
pip install demucs

# Séparation basique (4 stems)
demucs chanson.mp3

# Meilleure qualité (plus lent)
demucs -n htdemucs_ft --shifts=5 chanson.mp3

# Voix uniquement (2 stems : voix + instrumental)
demucs --two-stems=vocals chanson.mp3

Demucs n’est plus maintenu par Meta Le créateur de Demucs (Alexandre Défossez) a quitté Meta et a créé un fork personnel sur github.com/adefossez/demucs. Le dépôt officiel Meta ne reçoit plus que des corrections de bugs critiques. Pour les usages en production, surveillez le fork pour les éventuelles mises à jour futures.

Spleeter (Deezer) : le vétéran dépassé

Spleeter, développé par Deezer en 2019, a été le premier outil de stem separation accessible au grand public. Il est nettement plus rapide que Demucs (surtout sur CPU) mais la qualité est significativement inférieure : 10 à 15 % de moins sur les évaluations qualitatives selon les benchmarks. En 2026, Spleeter n’est recommandé que pour les cas où la vitesse prime absolument sur la qualité.

Outils en ligne et API

Outil	Modèle sous-jacent	Stems	Prix	Point fort
LALAL.AI	Propriétaire	Voix, instruments, guitare, piano, batterie, basse, synthé	Free limité, Pro ~15 $/mois	Granularité d’extraction (stems individuels)
Moises	Propriétaire	4+ stems (Pro : instruments additionnels)	Free limité, Pro ~10 $/mois	Écosystème complet (BPM, tonalité, métronome)
StemSplit	HTDemucs	4 stems	Free preview 30s, payant pour l’export	Même qualité que Demucs, zéro installation
iZotope RX	Propriétaire	4 stems	Plugin payant (299 $+)	Intégration DAW professionnelle, post-production
LANDR Stems	Propriétaire	4 stems	Abonnement LANDR	Plugin DAW, workflow intégré
UVR (Ultimate Vocal Remover)	MDX-Net / Demucs	Variable	Gratuit	Meilleure isolation vocale (mode MDX-Net)

Pour l’isolation vocale pure (supprimer ou extraire la voix uniquement), UVR en mode MDX-Net est souvent supérieur à Demucs, car le modèle MDX-Net est spécialement optimisé pour cette tâche. La séparation est « sans perte » sur les tests MusicRadar, avec un impact minimal sur la brillance de l’accompagnement.

Intégration dans les DAW

La séparation de sources est désormais intégrée directement dans les stations de travail audio numériques. Apple Logic Pro propose la séparation de stems native, capable d’isoler guitares et pianos en plus des 4 stems de base. Ableton Live intègre des fonctionnalités similaires. Ces intégrations natives éliminent le besoin d’exporter/importer des fichiers et permettent un workflow fluide : séparer, éditer et remixer dans le même environnement.

Cas d’usage

Production musicale et remixing

Les producteurs utilisent la séparation de stems pour isoler des éléments de morceaux existants (avec autorisation) à des fins de sampling, remixing et mashup. Extraire une ligne de basse, un pattern de batterie ou un riff de guitare d’un mix commercial ouvre des possibilités créatives qui nécessitaient auparavant l’accès aux pistes master. Les DJ l’utilisent pour créer des transitions sur mesure, des mashups et des versions instrumentales pour leurs sets.

Karaoké et backing tracks

L’application la plus populaire auprès du grand public. Supprimer les voix d’une chanson pour en faire une version karaoké est un cas d’usage direct de la séparation vocale. La qualité est suffisante pour un usage récréatif, même si des artefacts (réverbération résiduelle, léger warbling) restent perceptibles sur les écoutes attentives.

Éducation musicale

Les professeurs et étudiants en musique isolent des instruments pour analyser des arrangements, ralentir des passages techniques, étudier des techniques de jeu et comprendre la structure d’un mix. C’est un outil pédagogique puissant qui n’existait tout simplement pas il y a quelques années.

Podcast et post-production audiovisuelle

Isoler les voix du bruit de fond, séparer le dialogue de la musique d’ambiance, extraire des éléments sonores pour le sound design : la séparation de sources s’étend bien au-delà de la musique. Google Research a développé BASNet et GSENet pour la séparation spatiale audio sur les appareils portables, exploitant les différences de délai et de gain entre deux microphones pour isoler des sources sonores par direction.

Accessibilité

Les personnes malentendantes bénéficient de la séparation de sources pour isoler la parole du bruit ambiant. Les aides auditives et les implants cochléaires intègrent de plus en plus des algorithmes de séparation pour améliorer la compréhension de la parole en environnement bruyant.

Limites et défis techniques

Le « bleeding » (fuite inter-stems). C’est le défi principal : des fragments d’une source apparaissent dans le stem d’une autre. Les cymbales de hi-hat contaminent souvent le stem vocal. Le bleeding est particulièrement problématique quand deux sources partagent les mêmes fréquences (voix et guitare dans les médiums).

Les artefacts de phase. Les mix stéréo larges avec beaucoup de panning peuvent produire des stems avec un son creux et « phasé ». La resynthèse du signal temporel depuis un spectrogramme masqué introduit parfois des incohérences de phase.

La compression et la qualité source. Les fichiers fortement compressés (MP3 128 kbps) fournissent moins d’informations spectrales au modèle, ce qui dégrade la séparation. Utilisez toujours des sources lossless (WAV, FLAC, AIFF) quand c’est possible. Un MP3 320 kbps est acceptable, mais un fichier de faible bitrate produira des résultats médiocres.

La catégorie « other ». Demucs sépare en 4 stems : voix, batterie, basse et « other » (tout le reste). Si votre morceau contient guitare, piano, synthétiseur, cuivres et cordes, tout cela finit mélangé dans le stem « other ». La version 6 stems ajoute guitare et piano, mais avec une qualité variable. Le modèle « Separate Anything You Describe » (utilisant CLAP) permet une séparation guidée par le texte (« extrais le piano »), mais la qualité reste en deçà de Demucs pour les instruments standard.

Les enregistrements live. Les mix de studio bien produits donnent les meilleurs résultats. Les enregistrements live, avec réverbération de salle, bleed de microphones et positionnement variable des musiciens, sont beaucoup plus difficiles à séparer.

Conseils pour de meilleurs résultats Partez de fichiers lossless (WAV/FLAC). Utilisez htdemucs_ft avec –shifts=5 pour la meilleure qualité. Si vous n’avez besoin que des voix, testez aussi UVR en mode MDX-Net (souvent meilleur que Demucs pour la voix seule). Combinez les résultats de plusieurs modèles : les voix de Demucs avec la batterie de MDX-Net si un modèle excelle plus que l’autre sur un élément spécifique. Et vérifiez toujours les droits d’auteur : séparer un morceau protégé ne change pas son statut de copyright.

Avancées récentes et tendances

Les architectures Mamba/State Space. La recherche récente (MSNet, janvier 2026, publié dans Nature Scientific Reports) propose des architectures basées sur les modèles d’espace d’état (Mamba) avec modélisation découplée temps-fréquence. Ces approches promettent un meilleur compromis entre qualité de séparation et efficacité computationnelle, un enjeu clé pour le traitement en temps réel.

La séparation multi-étapes sans ré-entraînement. Un papier récent (arXiv, mai 2025) montre qu’on peut améliorer la qualité de séparation en appliquant itérativement un modèle existant, sans aucun entraînement supplémentaire. En mélangeant optimalement le signal d’entrée avec le résultat de l’étape précédente, chaque passe améliore la séparation. C’est un « free lunch » qui s’applique à n’importe quel modèle existant.

La séparation guidée par le langage naturel. Les modèles comme « Separate Anything You Describe » (basé sur CLAP) permettent de séparer des sources par description textuelle plutôt que par catégorie prédéfinie. On peut demander « extrais le piano » ou « isole le bruit de fond » dans un vocabulaire ouvert. La flexibilité est supérieure, mais la qualité n’atteint pas encore celle des modèles spécialisés.

La séparation en temps réel. L’intégration dans les DAW et les performances mobiles nécessitent une séparation en temps réel. Les progrès en optimisation de modèles (quantization, distillation) et en matériel (puces NPU, GPU mobiles) rapprochent cet objectif, mais la qualité studio en temps réel reste un défi ouvert.

Verdict

Demucs (htdemucs_ft) est le choix par défaut pour toute séparation musicale en 2026. La qualité est la meilleure disponible en open source (SDR 9,20 dB), le modèle est gratuit sous licence MIT et l’installation se fait en une commande pip. Si vous avez un GPU, faites-le tourner localement. Sinon, StemSplit fournit exactement le même modèle dans le cloud.

Pour l’isolation vocale uniquement : UVR en mode MDX-Net est souvent supérieur à Demucs sur cette tâche spécifique, avec une séparation quasi sans perte.

Pour un workflow professionnel : Logic Pro et iZotope RX offrent l’intégration DAW la plus fluide. LALAL.AI et Moises sont les meilleures options en ligne avec des fonctionnalités complémentaires (détection BPM, tonalité, métronome).

Pour les développeurs : l’API StemSplit ou l’intégration directe de Demucs en Python offre un pipeline programmatique complet pour la séparation en batch.

Le conseil essentiel : la qualité de la source détermine la qualité de la séparation. Aucun modèle ne peut récupérer des informations détruites par une compression agressive. Partez du meilleur fichier audio disponible.

Questions fréquentes sur la sound separation

Demucs est-il gratuit ?

Oui. Demucs est open source sous licence MIT, gratuit pour un usage personnel et commercial. Le coût réel est celui du matériel : un GPU NVIDIA (4 Go+ VRAM) est recommandé pour des performances raisonnables. Sur CPU, le traitement fonctionne mais est 5 à 10 fois plus lent. Si vous ne voulez pas installer de logiciel, des services en ligne comme StemSplit font tourner Demucs dans le cloud (payant pour l’export complet, preview gratuite de 30 secondes).

Quelle est la différence entre 4 stems et 6 stems ?

La séparation 4 stems (mode par défaut de Demucs) produit : voix, batterie, basse et « other » (tout le reste). La séparation 6 stems (htdemucs_6s) ajoute guitare et piano comme stems séparés. En pratique, la guitare est correctement isolée dans la plupart des cas, mais le piano souffre de bleeding significatif et d’artefacts. Pour une isolation piano fiable, il est préférable d’utiliser des outils spécialisés ou LALAL.AI qui propose des stems instrument-par-instrument.

La séparation de stems change-t-elle le copyright d’une chanson ?

Non. Séparer un morceau protégé par le droit d’auteur ne change en rien son statut juridique. Vous avez toujours besoin de l’autorisation des ayants droit pour utiliser les stems extraits, que ce soit pour du sampling, du remixing ou de la distribution. Demucs est libre d’usage (licence MIT), mais cela s’applique au logiciel, pas au contenu audio que vous y faites passer. Pour un usage commercial de stems extraits, assurez-vous d’avoir les droits nécessaires sur le morceau original.

Peut-on séparer les instruments d’un enregistrement live ?

Oui, mais avec des résultats significativement inférieurs à ceux obtenus sur des mix de studio. Les enregistrements live présentent de la réverbération de salle, du bleed entre microphones, des variations de positionnement et une compression souvent agressive, autant de facteurs qui compliquent la séparation. Les modèles fonctionnent mieux sur des enregistrements de studio bien produits, avec des sources clairement définies et peu de traitement d’effets.

Quel outil choisir pour supprimer les voix d’une chanson ?

Pour supprimer uniquement les voix (créer une version instrumentale), deux options se distinguent. UVR (Ultimate Vocal Remover) en mode MDX-Net offre la meilleure isolation vocale gratuite, avec une séparation quasi sans perte sur les tests professionnels. Demucs avec l’option --two-stems=vocals est l’alternative la plus simple à utiliser (une seule commande). Pour un usage en ligne sans installation, LALAL.AI et Moises offrent d’excellents résultats. En DAW, Logic Pro propose la séparation vocale native intégrée à l’environnement de travail.