MusicGen (Meta)

MusicGen est un modèle de génération de musique par intelligence artificielle développé par Meta AI, capable de produire de la musique instrumentale de haute qualité à partir de descriptions textuelles ou de mélodies de référence, en utilisant un seul modèle de langage auto-régressif.

Éditeur: Meta AI (FAIR team)
Date de sortie: Juin 2023
Architecture: Transformer auto-régressif sur tokenizer EnCodec 32 kHz
Tailles: 300M / 1,5B / 3,3B paramètres
Variantes: Text-to-music + Melody-guided
Licence: Code : MIT / Modèles : CC-BY-NC (recherche) + usage commercial autorisé
Données d’entraînement: 20 000 heures de musique sous licence (Meta interne + ShutterStock + Pond5)
Framework: AudioCraft (MusicGen + AudioGen + EnCodec)
URL: audiocraft.metademolab.com

Architecture technique

MusicGen se distingue par sa simplicité architecturale. Là où des modèles précédents comme MusicLM (Google) nécessitaient plusieurs étapes et modèles séparés, MusicGen utilise un unique modèle de langage Transformer auto-régressif qui opère sur des tokens audio compressés par EnCodec, le codec neural développé par Meta.

Le processus se déroule en trois phases. D’abord, l’audio est encodé par EnCodec en tokens discrets via 4 codebooks échantillonnés à 50 Hz. Ensuite, le modèle Transformer prédit ces tokens séquentiellement, conditionné par l’embedding textuel ou mélodique. L’innovation clé est l’entrelacement de tokens (token interleaving) : en introduisant un petit décalage entre les codebooks, MusicGen peut les prédire en parallèle, ce qui réduit le nombre d’étapes auto-régressives à seulement 50 par seconde d’audio. Enfin, les tokens générés sont décodés par EnCodec pour produire la forme d’onde audio finale.

Le modèle existe en trois tailles : Small (300M paramètres), Medium (1,5B) et Large (3,3B). Le modèle Large produit la meilleure qualité mais nécessite un GPU plus puissant. Une variante Melody (1,5B) accepte en entrée un fichier audio dont elle extrait la mélodie principale via des chromagrammes, puis génère une nouvelle piste musicale qui suit cette mélodie tout en respectant le prompt textuel.

Chromagrammes et guidage mélodique Les chromagrammes sont des représentations des caractéristiques harmoniques et mélodiques de la musique, robustes aux changements d’instrumentation ou de timbre. MusicGen extrait la mélodie d’un échantillon audio via ces features, puis l’utilise comme signal de guidage pour la génération. Vous pouvez ainsi donner un riff de guitare et obtenir une version orchestrale qui suit la même mélodie.

AudioCraft : l’écosystème

MusicGen fait partie d’AudioCraft, le framework open source de Meta pour la génération audio. AudioCraft regroupe trois composants complémentaires :

MusicGen génère de la musique à partir de texte ou de mélodie, entraîné sur de la musique sous licence. AudioGen génère des sons environnementaux et des effets sonores à partir de descriptions textuelles, entraîné sur des effets sonores publics. EnCodec est le codec audio neural qui compresse et décompresse l’audio avec une haute fidélité. Il sert de base à MusicGen et AudioGen pour la tokenisation de l’audio.

AudioCraft est publié sous licence MIT pour le code, ce qui en fait un framework complet et librement utilisable pour développer des modèles de génération audio personnalisés. Il fournit une architecture unifiée pour construire n’importe quel modèle auto-régressif avec un conditionnement arbitraire.

Comment utiliser MusicGen

Via Hugging Face (gratuit)

Le moyen le plus simple de tester MusicGen est le Space Hugging Face, accessible gratuitement. Vous entrez un prompt textuel (par exemple « lo-fi hip-hop chill beat with jazzy piano ») et le modèle génère un clip audio. La durée est limitée à environ 12 secondes sur le Space public gratuit. Pour des durées plus longues, vous pouvez dupliquer le Space sur votre propre compte Hugging Face.

En local avec Python

MusicGen s’exécute en local via la bibliothèque Transformers de Hugging Face (version 4.31+) ou directement via le framework AudioCraft. L’installation nécessite Python, PyTorch et un GPU NVIDIA avec CUDA. Le code de base est minimal :

from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained("large")
model.set_generation_params(duration=8)

descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)

for idx, one_wav in enumerate(wav):
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate,
                strategy="loudness")

Le modèle est entraîné sur des chunks de 30 secondes, mais il est possible de générer des séquences plus longues avec une approche par fenêtre glissante : on génère 30 secondes, on conserve les 20 dernières comme contexte, et on génère le segment suivant. Cette technique permet de produire des pistes de plusieurs minutes tout en maintenant la cohérence musicale.

Via API (Replicate, etc.)

Pour un usage sans infrastructure GPU, MusicGen est disponible sur des plateformes comme Replicate (environ 0,08 $ par exécution), LimeWire et d’autres hébergeurs de modèles. Ces APIs offrent un accès simple via des appels REST, sans installation locale.

Données d’entraînement et droits

MusicGen a été entraîné sur environ 20 000 heures de musique, comprenant un dataset interne Meta de 10 000 pistes de haute qualité et environ 390 000 pistes instrumentales provenant de ShutterStock et Pond5. Meta affirme que toute la musique utilisée est couverte par des accords légaux avec les détenteurs de droits, incluant un partenariat avec Shutterstock.

C’est un positionnement important par rapport à Suno et Udio, accusés d’avoir entraîné leurs modèles sur de la musique protégée sans autorisation. MusicGen offre une base juridique plus solide grâce à son dataset sous licence. Cependant, le modèle est principalement distribué sous licence CC-BY-NC pour la recherche. Meta autorise l’usage commercial, mais les conditions exactes méritent d’être vérifiées selon votre cas d’usage.

En mars 2024, la société Rightsify a publié Hydra II, un nouveau modèle base entraîné entièrement sur l’architecture AudioCraft, avec un million de chansons dont Rightsify détient tous les droits. Hydra II offre une indemnification juridique complète et supporte des prompts en 50+ langues, ce qui en fait une alternative intéressante pour un usage commercial sans risque.

Cas d’usage et workflows

Prototypage musical rapide

MusicGen est un outil de prototypage redoutablement efficace pour les compositeurs. En quelques secondes, vous pouvez tester une idée musicale : « smooth jazz with saxophone solo and walking bass » donne immédiatement un aperçu sonore de la direction artistique. La variante Melody permet d’aller plus loin : vous fredonnez ou jouez un riff sur votre instrument, vous l’enregistrez, et MusicGen génère un arrangement complet autour de cette mélodie. C’est un raccourci considérable par rapport au processus traditionnel d’arrangement en DAW.

Sound design pour jeux et apps

Les développeurs de jeux vidéo utilisent MusicGen pour générer des bandes-son dynamiques. Le modèle peut être intégré via l’API AudioCraft pour produire de la musique adaptée à chaque scène ou situation de jeu. Combiné avec AudioGen pour les effets sonores environnementaux, le framework AudioCraft couvre l’ensemble des besoins audio d’un jeu ou d’une application interactive. Le fine-tuning sur un style musical spécifique permet de maintenir une cohérence esthétique sur l’ensemble du projet.

Éducation et recherche

MusicGen est explicitement conçu pour la recherche sur la génération musicale IA. Les chercheurs peuvent étudier les limites du modèle, expérimenter avec différentes stratégies de conditionnement, et explorer les relations entre descriptions textuelles et sortie musicale. Pour l’enseignement, le modèle permet d’illustrer des concepts de composition, d’harmonie et d’arrangement en temps réel. L’accès au code source et à l’architecture permet aussi d’enseigner les fondamentaux des modèles génératifs audio.

Intégration dans un workflow de production

Le workflow typique avec MusicGen dans un contexte de production suit plusieurs étapes. Vous commencez par générer plusieurs variantes d’un concept musical via des prompts textuels. Vous sélectionnez les meilleurs résultats. Si vous utilisez la variante Melody, vous pouvez guider la génération avec un fichier audio de référence. Vous étendez ensuite les clips de 30 secondes en pistes plus longues via la technique de fenêtre glissante. Le résultat est exporté en audio et importé dans votre DAW (Ableton, Logic Pro, FL Studio) pour le mixage final, l’ajout de voix et la post-production.

Pour améliorer la qualité audio des exports, activez le décodeur Multi-Band Diffusion (MBD) d’EnCodec, qui réduit significativement les artefacts audio au prix d’un temps de calcul supplémentaire. Cette option est particulièrement recommandée pour les pistes destinées à une diffusion commerciale ou à un mixage professionnel.

Astuce : combiner MusicGen et AudioGen Pour un projet de sound design complet (jeu vidéo, podcast fiction, documentaire), utilisez MusicGen pour la bande-son musicale et AudioGen pour les effets sonores environnementaux. Les deux modèles partagent le même framework AudioCraft et la même pipeline de génération, ce qui simplifie l’intégration et garantit une cohérence technique entre les éléments musicaux et les effets sonores.

Limites et positionnement

MusicGen ne génère pas de voix. C’est un modèle instrumental uniquement, sans paroles ni chant. La durée native est de 30 secondes (extensible par fenêtre glissante, mais avec une dégradation progressive de la cohérence). La qualité audio est en mono 32 kHz, inférieure au stéréo 44,1 kHz de Stable Audio ou de Suno. Le Multi-Band Diffusion (MBD) d’EnCodec améliore la qualité en réduisant les artefacts, mais au prix de calculs supplémentaires.

MusicGen n’est pas conçu comme un produit grand public. Il n’y a pas d’interface web polished, pas de bibliothèque de voix, pas de plans d’abonnement. C’est un modèle de recherche destiné aux développeurs, chercheurs et musiciens techniquement compétents qui veulent un contrôle total sur la génération musicale. Pour un outil clé en main, Suno, Udio ou Mubert seront plus adaptés.

Sa force est son positionnement open source avec un dataset sous licence : c’est l’un des rares modèles de génération musicale qui combine transparence, qualité et légitimité juridique. Pour les développeurs qui construisent des produits autour de la musique IA, AudioCraft/MusicGen est une fondation technique solide et bien documentée.

MusicGen vs les alternatives

Critère	MusicGen	Suno	Stable Audio Open
Type	Modèle open source (recherche/dev)	Plateforme SaaS grand public	Modèle open source (SFX/samples)
Voix	Non	Oui	Non
Durée	30s natif (extensible)	Jusqu’à 8 min	47s (Open) / 3 min (2.5)
Guidage mélodique	Oui (chromagrammes)	Non	Audio-to-audio
Fine-tuning	Oui	Non	Oui
Dataset	20K heures sous licence	Contesté (procès RIAA)	CC0/CC BY (Freesound/FMA)
Prix	Gratuit (self-hosted) / ~0,08 $/run (API)	Dès 10 $/mois	Gratuit (CA < 1 M$)
Meilleur pour	Développeurs, chercheurs, intégrations	Créateurs, chansons complètes	Sound design, SFX, samples

Questions fréquentes

MusicGen est-il gratuit ?

Oui. MusicGen est open source et gratuit à exécuter en local si vous disposez d’un GPU compatible. Le code est sous licence MIT, les modèles sous CC-BY-NC avec autorisation d’usage commercial par Meta. Vous pouvez aussi le tester gratuitement sur Hugging Face (limité à 12 secondes) ou via des plateformes API comme Replicate (environ 0,08 $ par exécution). Aucun abonnement n’est nécessaire.

MusicGen peut-il générer des voix ou des paroles ?

Non. MusicGen est exclusivement instrumental. Il ne génère ni voix, ni paroles, ni chant. Si vous avez besoin de chansons complètes avec voix, orientez-vous vers Suno ou Udio. MusicGen excelle dans la génération de musique instrumentale, de mélodies et d’arrangements à partir de descriptions textuelles ou de références mélodiques.

Quelle est la différence entre MusicGen et AudioGen ?

Les deux font partie du framework AudioCraft de Meta, mais ciblent des domaines différents. MusicGen génère de la musique (mélodies, harmonies, arrangements instrumentaux) à partir de texte ou de mélodie. AudioGen génère des sons environnementaux et des effets sonores (pas de la musique) à partir de descriptions textuelles. Les deux utilisent la même architecture de base (Transformer auto-régressif sur EnCodec) mais sont entraînés sur des datasets distincts.

Peut-on utiliser MusicGen pour un projet commercial ?

Oui. Meta autorise l’usage commercial de MusicGen, et le modèle est entraîné sur de la musique sous licence (ShutterStock, Pond5, dataset interne Meta). Pour une sécurité juridique maximale en usage commercial, le modèle Hydra II de Rightsify (basé sur AudioCraft, entraîné sur un million de chansons dont Rightsify détient tous les droits) offre une indemnification complète. Vérifiez toujours les conditions de licence spécifiques à votre cas d’usage.

De quel matériel a-t-on besoin pour exécuter MusicGen ?

Le modèle Small (300M paramètres) tourne sur un GPU avec 4 Go de VRAM. Le Medium (1,5B) nécessite environ 8 Go et le Large (3,3B) environ 16 Go de VRAM. Un GPU NVIDIA avec CUDA est recommandé. Sur le Space Hugging Face gratuit, la génération peut prendre environ 2 minutes selon la charge du serveur. En local ou sur un GPU dédié, la génération est nettement plus rapide. Sans GPU, des plateformes cloud comme Replicate ou RunPod permettent d’exécuter le modèle à la demande.