Stable Audio

Stable Audio est le modèle de génération audio par intelligence artificielle développé par Stability AI, capable de produire de la musique instrumentale et des effets sonores à partir de prompts textuels, avec une version commerciale (Stable Audio 2.5) et une version open source (Stable Audio Open).

Éditeur: Stability AI (UK, fondée en 2019)
Modèle commercial: Stable Audio 2.5 (enterprise-grade, décembre 2025)
Modèle open source: Stable Audio Open 1.0 (jusqu’à 47s) / Open Small (341M params, mobile)
Durée max: 3 minutes (commercial) / 47 secondes (open source)
Voix: Non (instrumental et SFX uniquement)
Architecture: Autoencoder + T5 text embedding + Transformer Diffusion (DiT)
Licence open source: Community License (gratuit si CA < 1 M$/an)
URL: stableaudio.com / stability.ai

Comment fonctionne Stable Audio

Stable Audio repose sur une architecture en trois composants. Un autoencoder compresse les formes d’onde audio en séquences latentes gérables. Un embedding textuel T5 encode le prompt de l’utilisateur en représentation conditionnelle. Et un modèle de diffusion basé sur un Transformer (DiT) opère dans l’espace latent de l’autoencoder pour générer l’audio final. Cette architecture est similaire à celle de Stable Diffusion pour les images, transposée au domaine audio.

Le processus de génération part du bruit et le débruite progressivement, guidé par le prompt textuel, pour produire un spectrogramme audio cohérent qui est ensuite décodé en forme d’onde. La version 2.5 utilise une méthode de génération en 8 étapes qui permet l’inférence en moins de 2 secondes sur GPU pour une piste de 3 minutes, un temps remarquablement court.

Stable Audio supporte plus de 50 styles musicaux (pop, rock, électronique, classique, jazz, ambient, hip-hop, cinématique, etc.) et peut mélanger différents styles. La sortie audio est en stéréo 44,1 kHz, avec des exports en WAV 16 bits et MP3 320 kbps. Les plans premium offrent une qualité lossless adaptée à la production professionnelle.

Les deux visages de Stable Audio

Stable Audio 2.5 (commercial)

Lancé en décembre 2025, Stable Audio 2.5 est le premier modèle audio conçu spécifiquement pour la production sonore enterprise. Il génère des pistes stéréo structurées de jusqu’à 3 minutes avec des compositions musicales complexes et dynamiques. Les points forts incluent l’audio inpainting (sélectionner et régénérer une section spécifique d’un clip uploadé), la transformation audio-to-audio (enrichir un sample basique en paysage sonore complexe via un prompt), et la génération d’effets sonores professionnels.

Le modèle est entraîné sur un dataset entièrement sous licence, fourni par le partenaire AudioSparx. C’est un point important pour les utilisateurs commerciaux : contrairement à Suno dont l’entraînement sur de la musique protégée fait l’objet de procès, Stable Audio 2.5 s’appuie sur des données licenciées, réduisant considérablement le risque juridique.

Stable Audio 2.5 est accessible via stableaudio.com, l’API Stability AI, et des plateformes partenaires comme fal, Replicate et ComfyUI. Le déploiement on-premise est possible via licence enterprise.

Stable Audio Open (open source)

Stable Audio Open 1.0 est la version open source du modèle, optimisée pour la génération de samples courts, d’effets sonores et d’éléments de production. Elle génère jusqu’à 47 secondes d’audio stéréo à 44,1 kHz. Le modèle complet pèse 1,1 milliard de paramètres.

Le dataset d’entraînement est constitué de 486 492 enregistrements audio provenant de Freesound (472 618) et du Free Music Archive (13 874), tous sous licences CC0, CC BY ou CC Sampling+. Stability AI a mené une analyse approfondie pour s’assurer qu’aucune musique protégée n’était présente dans les données d’entraînement, une transparence rare dans le domaine.

Stable Audio Open Small (341 millions de paramètres) a été co-développé avec Arm pour le déploiement on-device. Il génère jusqu’à 11 secondes d’audio sur un smartphone en moins de 8 secondes, ce qui ouvre des perspectives pour les applications edge AI et les expériences mobiles.

L’un des avantages majeurs de la version open source est la possibilité de fine-tuner le modèle sur vos propres données audio. Un batteur peut l’entraîner sur ses propres enregistrements pour générer de nouveaux patterns de batterie dans son style. Un sound designer peut l’affiner sur sa bibliothèque de foley pour générer des effets sonores cohérents avec son esthétique.

Licence Community : gratuit sous 1 M$ de CA La licence communautaire de Stability AI est gratuite pour les individus et les organisations dont le chiffre d’affaires annuel est inférieur à 1 million de dollars. Au-delà, une licence enterprise est requise. Cette politique rend Stable Audio Open accessible à la quasi-totalité des créateurs indépendants et des petites entreprises.

Tarification

Stable Audio propose un plan gratuit avec des crédits de génération limités à l’inscription. Les plans payants débloquent davantage de générations par mois, la qualité lossless et les droits commerciaux. La plateforme web stableaudio.com utilise un système de crédits basé sur l’usage. L’API Stability AI facture par appel (20 crédits pour une génération text-to-audio).

Pour les entreprises à plus de 1 M$ de CA, une licence enterprise est requise avec un tarif personnalisé incluant le support d’implémentation, les certifications SOC 2 Type II et SOC 3, l’indemnification et les options de fine-tuning personnalisé. L’accès on-premise permet de garder le contrôle total sur les données et l’infrastructure.

Offre	Prix	Générations	Usage commercial	Cas d’usage
Free (web)	0 $	Crédits limités	Non	Découverte, tests
Pro (web)	Payant (crédits)	Selon plan	Oui	Créateurs, freelances
API (plateforme)	Pay-per-use (crédits)	Selon volume	Oui	Développeurs, intégrations
Open Source	Gratuit (CA < 1 M$)	Illimitées (self-hosted)	Oui (sous licence)	Recherche, samples, SFX, fine-tuning
Enterprise	Sur devis	Custom	Oui (indemnification)	Production à grande échelle, on-premise

Cas d’usage

Sound design et effets sonores : c’est le terrain de prédilection de Stable Audio, surtout la version open source. Générez des beats, des riffs, des ambiances, des bruits de foley et des éléments de production en quelques secondes. Le fine-tuning sur des bibliothèques sonores personnalisées permet de créer des SFX cohérents avec une direction artistique spécifique.

Musique de fond pour vidéo et publicité : Stable Audio 2.5 produit des pistes instrumentales de 3 minutes avec une structure musicale dynamique (intro, développement, climax, outro). L’audio inpainting permet d’ajuster des sections spécifiques sans regénérer toute la piste, un workflow adapté aux monteurs vidéo et aux directeurs de création.

Développement d’applications et de jeux : l’API Stability AI et le modèle Open Small (341M paramètres, compatible mobile) permettent d’intégrer la génération audio directement dans des apps ou des jeux. La transformation audio-to-audio enrichit des sons basiques en ambiances complexes en temps réel.

Recherche et expérimentation : Stable Audio Open est explicitement conçu pour la recherche sur la génération audio par IA. Les chercheurs peuvent étudier les limites du modèle, expérimenter avec le fine-tuning et explorer de nouvelles techniques de conditionnement.

L’audio branding : un marché sous-exploité

Stable Audio 2.5 cible explicitement le marché de l’audio branding, un domaine où le potentiel est immense mais largement sous-exploité. Selon une étude Ipsos citée par Stability AI, un audio personnalisé rend une marque huit fois plus mémorable, mais seulement 6 % des créations publicitaires utilisent une identité sonore. Le problème historique est le coût et la complexité de la production audio sur mesure : composer, enregistrer, mixer et adapter une identité sonore pour chaque canal (TV, radio, app, web, réseaux sociaux) demande des semaines de travail et des budgets conséquents.

Stable Audio 2.5 réduit ce processus à quelques minutes. Une équipe marketing peut générer des variations de son identité sonore adaptées à chaque format et chaque canal, en modifiant simplement le prompt. L’audio inpainting permet d’ajuster une section sans tout régénérer, ce qui facilite les itérations créatives. Pour les agences et les marques, c’est un changement de paradigme : l’audio sur mesure devient aussi accessible que le design graphique l’est devenu avec Canva.

Limites

Stable Audio ne génère pas de voix. C’est un modèle purement instrumental et SFX. Si vous avez besoin de chansons avec paroles et voix, orientez-vous vers Suno ou Udio. La version open source est limitée à 47 secondes (11 secondes pour Open Small), ce qui la cantonne aux samples courts et aux effets sonores. Le résultat peut paraître légèrement synthétique comparé aux modèles propriétaires comme Suno ou ElevenLabs Music. Le modèle a été entraîné avec des descriptions en anglais et les performances dans d’autres langues de prompting sont inférieures. Enfin, la qualité varie selon les genres : les ambiances électroniques et cinématiques sont excellentes, mais les styles acoustiques ou les genres très spécifiques sont moins bien couverts.

Positionnement dans l’écosystème

Stable Audio occupe une niche distincte dans le paysage de la musique IA. Là où Suno et Udio visent la génération de chansons complètes avec voix, et où Mubert se concentre sur la musique de fond à partir de samples humains, Stable Audio se positionne sur trois axes : la génération d’effets sonores et de samples de production (domaine où la version open source excelle), la musique instrumentale enterprise-grade (Stable Audio 2.5), et l’accessibilité technique grâce à l’open source et au fine-tuning.

Pour les développeurs et les chercheurs, Stable Audio Open est probablement le modèle le plus intéressant de l’écosystème : transparent sur ses données d’entraînement, fine-tunable, et gratuit pour la quasi-totalité des usages. Pour les équipes de production professionnelles, Stable Audio 2.5 offre la combinaison rare d’un dataset entièrement licencié, d’une qualité enterprise et d’un déploiement flexible (cloud, API, on-premise).

Questions fréquentes

Stable Audio est-il gratuit ?

Partiellement. Le site stableaudio.com offre des crédits gratuits à l’inscription. La version open source (Stable Audio Open) est entièrement gratuite pour les individus et organisations sous 1 million de dollars de chiffre d’affaires annuel. Au-delà, une licence enterprise est requise. Les plans payants sur le site web et l’API débloquent plus de générations et les droits commerciaux.

Stable Audio génère-t-il des voix ou des chansons avec paroles ?

Non. Stable Audio est exclusivement instrumental et SFX. Le modèle ne génère pas de voix réalistes ni de paroles. Pour des chansons complètes avec voix, utilisez Suno ou Udio. Stable Audio est optimisé pour la musique de fond, les ambiances, les effets sonores et les éléments de production musicale (beats, riffs, samples).

Quelle est la différence entre Stable Audio Open et Stable Audio 2.5 ?

Stable Audio Open est le modèle open source, limité à 47 secondes, entraîné sur des données Freesound/FMA sous licences Creative Commons. Il est conçu pour les samples courts, le sound design et la recherche, avec la possibilité de fine-tuning. Stable Audio 2.5 est le modèle commercial, capable de générer jusqu’à 3 minutes de musique structurée, entraîné sur un dataset licencié (AudioSparx), avec audio inpainting et qualité enterprise. Le premier est gratuit et modifiable ; le second est payant mais plus puissant.

Peut-on fine-tuner Stable Audio sur ses propres données ?

Oui, c’est l’un des avantages majeurs de la version open source. Stable Audio Open peut être fine-tuné sur vos propres enregistrements pour générer de l’audio dans votre style spécifique. Un musicien peut l’entraîner sur ses propres samples de batterie, un sound designer sur sa bibliothèque de foley. Cette capacité de personnalisation n’est disponible que sur la version open source ; la version commerciale ne propose le fine-tuning qu’en partenariat avec l’équipe Stability AI (offre enterprise).

Stable Audio est-il sûr juridiquement pour un usage commercial ?

Oui, avec une sécurité juridique supérieure à la moyenne. Stable Audio 2.5 est entraîné sur un dataset entièrement licencié (AudioSparx). Stable Audio Open est entraîné sur des données sous licences CC0, CC BY et CC Sampling+, avec une vérification documentée de l’absence de musique protégée. Stability AI propose en outre une indemnification pour les clients enterprise. C’est un niveau de transparence et de sécurité rare dans le domaine de la musique générative.