ElevenLabs Text-to-Speech : guide complet des modèles, voix et réglages
Le text-to-speech (TTS) d’ElevenLabs convertit du texte en parole avec un réalisme qui brouille la frontière entre synthèse IA et voix humaine. Pauses naturelles, respirations, inflexions émotionnelles, cohérence sur les contenus longs : c’est la référence du marché.
ElevenLabs propose plusieurs modèles TTS, chacun optimisé pour un cas d’usage spécifique : Eleven v3 pour l’expressivité maximale, Flash v2.5 pour la latence ultra-basse, Multilingual v2 pour la qualité polyvalente. Ce guide vous explique comment choisir le bon modèle, configurer les paramètres, structurer votre texte, et utiliser les fonctionnalités avancées (audio tags, Text to Dialogue, API).
- Modèle phare
- Eleven v3 (GA depuis mars 2026, 70+ langues, audio tags, Text to Dialogue)
- Modèle rapide
- Flash v2.5 (~75 ms de latence, 32 langues, idéal pour agents et temps réel)
- Modèle polyvalent
- Multilingual v2 (32 langues, haute qualité, émotionnellement nuancé)
- Voix disponibles
- 3 000+ voix dans la bibliothèque, + clones personnalisés + voix designées par prompt
- Langues
- 70+ langues (v3), 32 langues (Flash v2.5, Multilingual v2)
- Plan minimum
- Free (10 000 crédits/mois, usage non commercial) ou Starter (5 $/mois, usage commercial)
- URL
- elevenlabs.io
Les modèles TTS d’ElevenLabs
Le choix du modèle est la deuxième décision la plus importante après le choix de la voix. Chaque modèle a ses forces et ses limites. Testez plusieurs combinaisons modèle + voix avant de vous engager dans une production.
Eleven v3 : le plus expressif
Eleven v3 est le modèle le plus avancé d’ElevenLabs. Lancé en alpha puis passé en disponibilité générale (mars 2026), il représente un changement de paradigme : ce n’est plus un modèle qui « lit » du texte, c’est un modèle qui « interprète » un script. Il gère les soupirs, les chuchotements, les rires, les interruptions et les réactions émotionnelles de façon crédible.
Les nouveautés clés de v3 :
Audio tags : des balises inline entre crochets qui dirigent la performance vocale. Exemples : [whispers], [excited], [sighs], [laughs]. Vous les insérez directement dans le texte : [whispers] Quelque chose approche... [sighs] Je le sens. C’est un contrôle inédit dans le TTS.
Text to Dialogue : une fonctionnalité exclusive à v3 qui tisse plusieurs voix ensemble pour créer des conversations multi-locuteurs naturelles. Le modèle ajuste automatiquement la prosodie, le rythme et le ton émotionnel entre les interlocuteurs. L’API Text to Dialogue est désormais publiquement disponible.
70+ langues : un bond majeur par rapport aux 32 langues de Multilingual v2.
Quand utiliser v3 : audiobooks, dialogues de personnages, contenus narratifs, production vidéo/film, tout projet où l’expressivité et l’émotion comptent plus que la vitesse.
Flash v2.5 : le plus rapide
Flash v2.5 est optimisé pour la latence ultra-basse : environ 75 ms (hors latence réseau et applicative). C’est le modèle conçu pour les applications temps réel : agents vocaux IA, chatbots, assistants conversationnels, jeux interactifs.
La qualité audio est légèrement inférieure à Multilingual v2 en termes de nuances émotionnelles, mais elle reste très convaincante pour les interactions conversationnelles. Le coût en crédits est réduit (0,5 crédit par caractère sur certains plans, contre 1 pour les modèles standard), ce qui en fait aussi le choix le plus économique pour la production à volume élevé.
Langues : 32 langues, incluant le français, l’anglais, l’espagnol, l’allemand, le japonais, le coréen, le hongrois, le norvégien et le vietnamien (ajoutés par rapport à v2).
Quand utiliser Flash v2.5 : agents vocaux, chatbots, applications interactives, traitement par lots à grande échelle, tout cas d’usage où la latence ou le coût sont prioritaires sur l’expressivité maximale.
Multilingual v2 : le polyvalent
Multilingual v2 est le modèle le plus éprouvé de la gamme. Il offre un excellent équilibre entre qualité vocale, stabilité et expressivité émotionnelle. Il gère 32 langues avec une qualité cohérente, en préservant les caractéristiques de la voix d’un locuteur à travers les langues.
C’est le modèle recommandé pour la plupart des usages professionnels courants : voiceovers vidéo, contenus e-learning, narration corporate, podcasts. Sa latence est plus élevée que Flash, mais la qualité audio est supérieure.
Quand utiliser Multilingual v2 : production de contenu professionnel multilingue, voiceovers vidéo, e-learning, narration corporate, tout projet nécessitant un bon équilibre qualité/stabilité.
Modèles English-only
Si votre contenu est exclusivement en anglais, ElevenLabs recommande fortement les modèles English-only (Eleven English v1, Turbo v2). Ils sont plus stables, plus faciles à configurer, et offrent des performances souvent supérieures aux modèles multilingues pour l’anglais. Pour le contenu en français ou dans d’autres langues, utilisez les modèles multilingues ou v3.
| Modèle | Langues | Latence | Expressivité | Audio tags | Dialogue multi-voix | Coût/caractère |
|---|---|---|---|---|---|---|
| Eleven v3 | 70+ | Moyenne | Excellente | ✅ | ✅ (Text to Dialogue) | 1 crédit |
| Multilingual v2 | 32 | Moyenne | Très bonne | ❌ | ❌ | 1 crédit |
| Flash v2.5 | 32 | ~75 ms | Bonne | ❌ | ❌ | 0.5-1 crédit |
| Turbo v2 (English) | 1 (EN) | Basse | Bonne | ❌ | ❌ | 0.5-1 crédit |
Choisir la bonne voix
La voix est le facteur numéro un qui détermine la qualité de votre output. ElevenLabs offre trois sources de voix.
Bibliothèque de voix (3 000+)
La Voice Library d’ElevenLabs contient plus de 3 000 voix pré-construites, filtrables par genre, âge, ton (conversationnel, narratif, journalistique) et langue. C’est le point de départ le plus simple : parcourez, écoutez les échantillons, et sélectionnez. Pour la v3, ElevenLabs a compilé une sélection de plus de 22 voix optimisées pour le nouveau modèle.
Voix clonées
Le clonage vocal vous permet d’utiliser votre propre voix (ou celle d’un tiers avec consentement). Le clone instantané (1-2 min d’audio) est disponible dès le plan Starter. Le clone professionnel (30+ min) dès le plan Creator. Pour v3, les clones instantanés donnent de meilleurs résultats que les clones professionnels (optimisation PVC en cours).
Voice Design (création par prompt)
Vous pouvez décrire la voix que vous voulez en langage naturel, et ElevenLabs la génère. Par exemple : « Voix masculine, la quarantaine, ton chaleureux et posé, léger accent du sud de la France. » C’est utile quand aucune voix de la bibliothèque ne correspond exactement à vos besoins et que vous ne voulez pas enregistrer un clone.
Les paramètres de réglage
Une fois la voix et le modèle choisis, quatre paramètres permettent d’affiner le rendu audio.
Stability (stabilité)
Contrôle la cohérence du rendu entre les générations. Valeur élevée (0.7-1.0) : voix prévisible, régulière, idéale pour la narration longue et les contenus corporate. Valeur basse (0.2-0.5) : plus de variabilité naturelle, davantage d’inflexions émotionnelles, mieux pour les dialogues et les contenus expressifs. Commencez à 0.5 et ajustez selon le résultat.
Similarity (similarité)
Détermine à quel point le rendu colle au profil vocal original (clone ou voix de la bibliothèque). Poussez au maximum (0.8-1.0) pour une fidélité maximale. Réduisez si vous voulez un rendu plus « libre » ou si vous constatez des artefacts (une similarité trop élevée sur une voix mal capturée peut amplifier les défauts).
Style Exaggeration
Amplifie l’expressivité et le style de la voix originale. Consomme plus de ressources et peut augmenter la latence. ElevenLabs recommande de garder ce paramètre à 0 dans la plupart des cas, car il peut déstabiliser le modèle. Montez-le uniquement si vous avez besoin d’un rendu très expressif et que la stabilité n’est pas critique.
Ce paramètre n’est pas disponible pour Eleven v3 (qui gère l’expressivité via les audio tags).
Speed (vitesse)
Ajuste le débit de parole. 1.0 est la vitesse normale. 1.1-1.2 pour les contenus dynamiques (vidéos YouTube, publicités). 0.8-0.9 pour la narration posée (audiobooks, méditation). Évitez les valeurs extrêmes (en dessous de 0.6 ou au-dessus de 1.4) qui produisent des résultats artificiels.
Bonnes pratiques pour un texte optimal
Le texte que vous fournissez au modèle influence directement la qualité du résultat. Voici les règles à suivre.
Écrivez les nombres en toutes lettres
Ne tapez pas « 1500 » ou « 15% ». Tapez « mille cinq cents » ou « quinze pourcent ». Les chiffres et symboles sont écrits de la même façon dans beaucoup de langues mais prononcés différemment. En les écrivant en toutes lettres, vous éliminez l’ambiguïté pour le modèle. C’est particulièrement important avec les modèles multilingues.
Utilisez la ponctuation comme outil de direction
La ponctuation influence le rythme et l’émotion du rendu. Les points de suspension (…) créent des pauses hésitantes. Les points d’exclamation ajoutent de l’énergie. Les virgules créent des micro-pauses naturelles. Les tirets longs forcent une respiration. Avec v3, la ponctuation a encore plus d’impact car le modèle interprète le contexte émotionnel du texte.
Audio tags (Eleven v3 uniquement)
Les audio tags sont des balises entre crochets minuscules insérées dans le texte. Elles dirigent la performance vocale comme des indications scéniques. Exemples :
[whispers] Tu entends ça ? [pause] [excited] Oui ! C'est exactement ce qu'on cherchait !
[sighs] Mais je ne suis pas sûr que ça suffise...
[laughs] Bon, on tente le coup quand même.
Les tags disponibles dépendent de la voix et du contexte. Les plus courants : [whispers], [excited], [sighs], [laughs], [pause], [sad], [angry]. La compatibilité varie selon la voix : choisissez une voix dont le ton de base est proche de l’émotion souhaitée. Demander un chuchotement à une voix qui crie ne fonctionnera pas bien.
Segmentez les textes longs
Pour les contenus longs (audiobooks, articles), découpez votre texte en segments et utilisez le streaming ou les requêtes séquentielles. L’API offre les paramètres previous_request_ids et next_request_ids pour maintenir la continuité prosodique entre les segments. Cela évite les ruptures de ton aux jointures.
Générez plusieurs prises
Le TTS d’ElevenLabs est non déterministe : deux générations du même texte produisent des résultats légèrement différents. Utilisez le paramètre seed pour plus de reproductibilité, mais acceptez que des variations subtiles persistent. ElevenLabs offre jusqu’à 2 régénérations gratuites par segment (même texte, mêmes paramètres). Profitez-en pour choisir la meilleure prise.
Comment utiliser le TTS d’ElevenLabs
Via l’interface web
Le workflow dans le tableau de bord ElevenLabs est simple :
1. Rendez-vous sur la page Text to Speech du dashboard.
2. Tapez ou collez votre texte dans le champ de saisie.
3. Sélectionnez une voix dans le panneau en bas à gauche.
4. Choisissez le modèle (v3, Multilingual v2, Flash v2.5, etc.).
5. Ajustez les paramètres (Stability, Similarity, Speed, Style Exaggeration).
6. Cliquez sur « Generate Speech ».
7. Écoutez, régénérez si nécessaire, puis téléchargez l’audio.
Via l’API
L’API REST d’ElevenLabs est complète et bien documentée. Voici un exemple minimal en JavaScript :
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const client = new ElevenLabsClient({
apiKey: "VOTRE_CLE_API"
});
await client.textToSpeech.convert("ID_DE_LA_VOIX", {
outputFormat: "mp3_44100_128",
text: "Bonjour, ceci est un test de synthèse vocale.",
modelId: "eleven_multilingual_v2",
});
L’API supporte le streaming (réception de l’audio chunk par chunk pendant la génération), les formats MP3, WAV, PCM, FLAC et OGG, et des options avancées de latence et de qualité. Les formats haute qualité (MP3 192 kbps) nécessitent le plan Creator minimum. Le PCM 44.1 kHz nécessite le plan Pro.
Via ElevenLabs Studio
Studio est l’éditeur intégré d’ElevenLabs, conçu pour la production de contenus longs. Vous pouvez découper un livre, un script ou un article en chapitres, assigner des voix différentes à différents personnages, et produire l’audio complet avec un contrôle projet par projet. C’est l’outil idéal pour les audiobooks et les productions narratives complexes.
Cas d’usage par secteur
Audiobooks
Le TTS d’ElevenLabs a révolutionné la production d’audiobooks. Auteurs indépendants et éditeurs l’utilisent pour produire des narrations de qualité professionnelle sans studio d’enregistrement. Avec v3 et Text to Dialogue, les livres avec plusieurs personnages gagnent en dynamisme grâce aux conversations multi-voix. Le plan Creator (22 $/mois, ~2,5 heures d’audio) couvre la production d’un chapitre long par mois. Les éditeurs à volume choisissent le plan Pro (99 $/mois, ~11 heures).
Vidéo et marketing
Voiceovers pour YouTube, publicités, vidéos de formation, tutoriels produits. Le TTS élimine la nécessité d’engager un comédien voix-off pour chaque projet. La fonctionnalité multilingue permet de localiser une vidéo en 32+ langues avec la même voix, ce qui est un atout considérable pour les marques internationales.
Agents vocaux IA
Flash v2.5 avec sa latence de ~75 ms est conçu pour les agents conversationnels. Combiné avec la plateforme Agents d’ElevenLabs, vous pouvez déployer des assistants vocaux qui répondent par téléphone, chat, e-mail ou WhatsApp dans 70+ langues. Les entreprises utilisent ces agents pour le support client, la prise de rendez-vous et la qualification de leads.
Accessibilité
Le TTS de haute qualité rend les contenus écrits accessibles aux personnes malvoyantes ou ayant des difficultés de lecture. La qualité vocale d’ElevenLabs rend l’écoute agréable sur de longues périodes, contrairement aux voix robotiques des anciens systèmes TTS qui fatiguaient rapidement l’auditeur.
Jeux vidéo et e-learning
Les développeurs de jeux génèrent des dialogues de PNJ à grande échelle. Les créateurs de formations produisent des modules e-learning narré sans mobiliser un formateur en studio. Dans les deux cas, la possibilité de modifier le texte et de régénérer l’audio instantanément élimine les coûts de re-enregistrement.
Combien coûte le TTS d’ElevenLabs ?
ElevenLabs facture en crédits. 1 caractère de texte = 1 crédit avec les modèles standard (Multilingual v2, v3). Les modèles Flash/Turbo coûtent entre 0,5 et 1 crédit par caractère selon votre plan. Un texte de 1 000 mots (environ 6 000 caractères) consomme donc 6 000 crédits en modèle standard ou 3 000 en Flash.
| Plan | Prix/mois | Crédits/mois | Équivalent audio (standard) | Usage commercial |
|---|---|---|---|---|
| Free | 0 $ | 10 000 | ~10 min | ❌ |
| Starter | 5 $ | 30 000 | ~30 min | ✅ |
| Creator | 22 $ | 100 000 | ~100 min (~1h40) | ✅ |
| Pro | 99 $ | 500 000 | ~500 min (~8h) | ✅ |
| Scale | 330 $ | 2 000 000 | ~2 000 min (~33h) | ✅ |
Avec les modèles Flash (0,5 crédit/caractère), votre capacité double. Le plan Creator à 100 000 crédits produit alors ~3h20 d’audio au lieu de ~1h40. Les crédits non utilisés sont reportés pendant un mois maximum sur les plans payants actifs.
Pour les détails complets des tarifs et les fonctionnalités par plan, consultez notre page dédiée ElevenLabs prix.
ElevenLabs TTS vs la concurrence
| Critère | ElevenLabs | Murf AI | Play.ht | Amazon Polly | Google Cloud TTS |
|---|---|---|---|---|---|
| Naturel de la voix | Excellent (référence) | Très bon | Bon | Correct | Bon |
| Expressivité émotionnelle | Excellente (v3 audio tags) | Bonne | Bonne | Limitée | Limitée |
| Langues | 70+ (v3) / 32 (Flash) | 20+ | 30+ | 30+ | 40+ |
| Voice cloning | ✅ (instant + pro) | ✅ | ✅ | ❌ | ❌ |
| API temps réel | ✅ (~75 ms Flash) | ✅ | ✅ | ✅ | ✅ |
| Multi-speaker dialogue | ✅ (v3 Text to Dialogue) | ❌ | ❌ | ❌ | ❌ |
| Prix d’entrée | 5 $/mois (Starter) | ~23 $/mois | ~30 $/mois | Pay-per-use | Pay-per-use |
Notre verdict : ElevenLabs domine le marché TTS par la qualité vocale, l’expressivité (surtout avec v3 et les audio tags), et la richesse fonctionnelle (clonage, doublage, agents, musique, effets sonores). Murf AI est une alternative correcte et légèrement plus accessible pour les débutants. Amazon Polly et Google Cloud TTS sont des choix solides pour les développeurs qui ont besoin d’une intégration cloud native à faible coût par caractère, mais la qualité vocale ne rivale pas avec ElevenLabs sur les contenus expressifs.
Verdict
Le text-to-speech d’ElevenLabs a atteint un point où la question n’est plus « est-ce que ça sonne naturel ? » mais « quel niveau d’expressivité ai-je besoin ? ». Eleven v3, avec ses audio tags et son Text to Dialogue, ouvre des possibilités qui n’existaient tout simplement pas il y a un an : des narrations d’audiobooks avec des dialogues vivants, des agents vocaux qui réagissent émotionnellement, des productions multilingues avec la même voix dans 70+ langues.
Pour la majorité des créateurs de contenu, le plan Creator à 22 $/mois est le point d’entrée optimal : accès à tous les modèles, clone professionnel, qualité audio 192 kbps, et ~1h40 de génération mensuelle (doublée avec les modèles Flash). Les développeurs qui intègrent le TTS via API opteront pour le plan Pro (99 $/mois) qui débloque le PCM 44.1 kHz et des quotas plus généreux.
Le seul reproche sérieux : le système de crédits. Calculer sa consommation à l’avance n’est pas trivial, et les fonctionnalités premium de v3 (audio tags, dialogue) consomment des crédits au même rythme que le TTS standard, ce qui peut surprendre. Surveillez votre jauge de crédits.
Questions fréquentes
ElevenLabs TTS fonctionne-t-il bien en français ?
Oui. Le français fait partie des langues les mieux supportées par ElevenLabs. Les modèles Multilingual v2, Flash v2.5 et v3 produisent tous un français naturel avec une prosodie correcte. Pour les meilleurs résultats, choisissez une voix dont l’accent natif est français (filtrez par langue dans la Voice Library). Les voix anglaises peuvent parler français mais avec un léger accent anglophone.
Quel modèle choisir pour un podcast en français ?
Multilingual v2 pour un podcast narratif classique (bon équilibre qualité/stabilité). Eleven v3 si votre podcast inclut des dialogues entre personnages ou si vous voulez un rendu très expressif. Flash v2.5 si vous produisez en volume élevé et que la vitesse de génération est prioritaire. Dans tous les cas, testez plusieurs modèles avec votre voix choisie avant de vous engager.
Comment les audio tags fonctionnent-ils avec v3 ?
Les audio tags sont des balises en minuscules entre crochets, insérées directement dans le texte. Exemple : [whispers] C'est un secret... [excited] Mais devinez quoi !. Le modèle interprète ces balises comme des indications de mise en scène et ajuste sa performance en conséquence. Les tags disponibles dépendent de la voix choisie : une voix calme répondra mieux à [whispers] qu’une voix énergique. Expérimentez pour trouver les combinaisons qui fonctionnent avec votre voix.
Peut-on utiliser le TTS d’ElevenLabs commercialement ?
Oui, à condition d’avoir un plan payant. Dès le plan Starter (5 $/mois), vous avez les droits commerciaux sur tout l’audio généré. Vous pouvez l’utiliser dans des vidéos monétisées (YouTube), des publicités, des audiobooks en vente, des formations payantes, etc. Le plan Free ne donne pas de droits commerciaux.
Le TTS est-il déterministe ? Puis-je reproduire exactement le même audio ?
Non, le TTS d’ElevenLabs est non déterministe par défaut : deux générations du même texte avec les mêmes paramètres produisent des résultats légèrement différents. Vous pouvez utiliser le paramètre seed dans l’API pour améliorer la reproductibilité, mais des variations subtiles subsistent. ElevenLabs offre 2 régénérations gratuites par segment pour vous permettre de choisir la meilleure prise.