Speech-to-Text (STT)

Le speech-to-text (STT), ou reconnaissance automatique de la parole (ASR), est une technologie d’intelligence artificielle qui convertit un signal audio vocal en texte écrit, en temps réel ou en différé.

Aussi appelé: ASR (Automatic Speech Recognition), reconnaissance vocale, transcription automatique
Catégorie: NLP / Audio Intelligence
Modèle de référence: Whisper (OpenAI) — open source, 1,55 milliard de paramètres (Large-v3)
Métrique clé: WER (Word Error Rate) — plus le chiffre est bas, mieux c’est
Prix API typique: De 0,003 $/min (GPT-4o Mini Transcribe) à 0,024 $/min (AWS Transcribe)
Langues: Jusqu’à 99+ selon le modèle

Comment fonctionne le speech-to-text

Un système STT moderne repose sur une architecture Transformer encoder-decoder. Le signal audio brut (fichier WAV, MP3 ou flux micro) passe par plusieurs étapes successives : conversion en spectrogramme Mel, encodage des caractéristiques acoustiques par un réseau de neurones, puis décodage en séquence de tokens textuels. Le modèle prédit chaque mot en tenant compte du contexte précédent, ce qui lui permet de gérer les ambiguïtés phonétiques.

Whisper d’OpenAI illustre parfaitement cette approche. L’audio est découpé en segments de 30 secondes, transformé en spectrogramme log-Mel (128 bins pour Large-v3), puis traité par un encodeur Transformer. Le décodeur produit ensuite le texte correspondant, y compris la ponctuation, les horodatages et l’identification de la langue. Le tout dans un seul modèle multitâche, sans pipeline en cascade.

Les alternatives commerciales comme Deepgram Nova-3 ou AssemblyAI Universal-2 utilisent des architectures propriétaires optimisées pour des cas d’usage spécifiques : latence ultra-faible pour les agents vocaux, diarisation des locuteurs en temps réel, ou détection multilingue dans une même conversation.

Métriques de performance : comprendre le WER

La métrique standard pour évaluer un système STT est le Word Error Rate (WER). Il se calcule en additionnant les substitutions, insertions et suppressions de mots, puis en divisant par le nombre total de mots dans la transcription de référence. Un WER de 5 % signifie qu’en moyenne, 5 mots sur 100 sont incorrects.

Pour du français courant, un bon système STT atteint un WER entre 3 et 8 % sur un audio propre. Sur un enregistrement bruité (centre d’appels, réunion multi-locuteurs), le WER peut grimper entre 10 et 20 %. Les modèles les plus récents comme Whisper Large-v3 atteignent environ 2,7 % de WER sur de l’anglais propre, ce qui approche la performance humaine (estimée entre 4 et 7 %).

Attention aux benchmarks marketing Les WER annoncés par les fournisseurs sont souvent mesurés sur des jeux de données nettoyés (LibriSpeech, Common Voice). En production, avec du bruit de fond, des accents régionaux ou du jargon technique, attendez-vous à des performances 2 à 3 fois moins bonnes. Testez toujours avec vos propres échantillons audio avant de choisir.

Modèles open source

Whisper (OpenAI)

Whisper reste en 2026 le modèle open source de référence pour la transcription. Publié sous licence MIT, il a été entraîné sur plus de 5 millions d’heures de données audio multilingues et multitâches. Le modèle existe en cinq configurations, de Tiny (39 M paramètres, 1 Go VRAM) à Large-v3 (1,55 milliard de paramètres, 10 Go VRAM). La variante Large-v3 Turbo, sortie en 2024, réduit les couches du décodeur de 32 à 4 et traite l’audio à environ 216x la vitesse temps réel : un fichier de 60 minutes est transcrit en 17 secondes environ.

Whisper gère 99 langues, la détection automatique de langue, les horodatages au niveau des segments et la traduction vers l’anglais. Sur Hugging Face, le modèle Large-v3 dépasse les 4 millions de téléchargements mensuels et compte plus de 650 variantes fine-tunées pour des domaines spécifiques (médical, juridique, sous-titrage).

Pour l’exécuter en local, vous avez besoin de Python, PyTorch et FFmpeg. La commande de base est simple :

pip install openai-whisper
whisper audio.mp3 --model turbo

Des implémentations optimisées existent pour la production : faster-whisper (basé sur CTranslate2, jusqu’à 4x plus rapide) et whisper.cpp (portage C++ pour le déploiement embarqué et mobile, 38 000+ étoiles GitHub).

Autres modèles open source notables

NVIDIA Canary Qwen 2.5B domine le classement Open ASR Leaderboard sur Hugging Face avec un WER d’environ 5,63 %. Il combine un encodeur FastConformer avec un décodeur LLM Qwen3-1.7B, ce qui lui permet de faire à la fois de la transcription pure et de l’analyse intelligente (résumé, Q&A sur l’audio).

IBM Granite Speech 3.3 (8B paramètres, licence Apache 2.0) vise le marché entreprise avec un WER d’environ 5,85 % et une bonne robustesse au bruit. NVIDIA Parakeet TDT (1,1B paramètres) privilégie la vitesse d’inférence pour les applications temps réel, avec un traitement plus de 2 000x la vitesse temps réel sur le benchmark Open ASR. Enfin, Moonshine (Useful Sensors) cible le déploiement embarqué avec des modèles aussi petits que 27 millions de paramètres, adaptés aux smartphones et à l’IoT.

APIs commerciales : comparatif

Voici les principales APIs STT disponibles en 2026, avec leurs tarifs et caractéristiques clés :

Service	Modèle phare	Prix / minute	Langues	Points forts
OpenAI Whisper API	Whisper / GPT-4o Transcribe	0,006 $ (standard) / 0,003 $ (Mini)	99+	Simplicité, précision, écosystème OpenAI
Deepgram	Nova-3	0,0043 $ (batch) / 0,0077 $ (streaming)	45+	Latence <300 ms, diarisation temps réel, multilingue en live
AssemblyAI	Universal-2 / Universal-3 Pro	0,0025 $ (base) / 0,0045 $ (Slam-1)	99	Audio intelligence (sentiment, PII, résumé), écosystème dev
Google Cloud STT	Chirp 3	≈ 0,016 $ (standard)	125+	Couverture linguistique massive, intégration GCP
Azure Speech	Azure AI Speech	≈ 0,016 $ (temps réel)	110+	Déploiement hybride (cloud/on-premise/edge), compliance
AWS Transcribe	Foundation Model	0,024 $ (Tier 1) → 0,0078 $ (5M+ min)	100+	Intégration AWS, variante médicale dédiée

Le meilleur rapport qualité-prix Pour la plupart des projets, l’API Whisper d’OpenAI à 0,006 $/min (ou 0,003 $/min avec GPT-4o Mini Transcribe) offre le meilleur compromis entre précision, simplicité et coût. Si vous avez besoin de streaming temps réel avec une latence inférieure à 300 ms, Deepgram Nova-3 est le choix évident. Pour de l’audio intelligence avancée (analyse de sentiment, détection d’entités, résumé), AssemblyAI domine avec son approche modulaire, mais attention à l’empilement des coûts add-on.

Self-hosted vs API : quel choix ?

L’auto-hébergement de Whisper sur votre propre infrastructure élimine les coûts par minute et vous donne un contrôle total sur la confidentialité des données. Cependant, il exige un GPU dédié (minimum 10 Go VRAM pour Large-v3), une expertise DevOps et un coût d’infrastructure d’au moins 276 $/mois pour une instance GPU basique.

Le point de bascule se situe généralement autour de 500 heures d’audio par mois. En dessous, l’API managée est plus rentable. Au-dessus, l’auto-hébergement devient économiquement intéressant, surtout avec faster-whisper qui réduit considérablement les besoins en GPU grâce à la quantification INT8.

Critère	API managée	Self-hosted
Coût à 100h/mois	≈ 36 $ (Whisper API)	≈ 276 $+ (GPU)
Coût à 1 000h/mois	≈ 360 $ (Whisper API)	≈ 276-500 $ (GPU)
Latence	Variable (réseau)	Prévisible (<1s sur GPU)
Confidentialité	Données chez le fournisseur	Données locales
Maintenance	Zéro	DevOps requis
Personnalisation	Limitée	Totale (fine-tuning, modèle custom)

Cas d’usage concrets

Transcription de réunions et podcasts

C’est le cas d’usage le plus courant. Des outils comme Otter.ai, Fireflies.ai ou Descript s’appuient sur des moteurs STT pour transcrire automatiquement les réunions Zoom, Teams ou Meet. La diarisation (identification de qui parle quand) est essentielle ici. Deepgram et AssemblyAI gèrent bien 2 à 4 locuteurs ; au-delà, la précision diminue sensiblement.

Sous-titrage vidéo

Whisper excelle pour le sous-titrage grâce à ses horodatages au niveau des mots. Des outils comme CapCut ou Submagic l’intègrent pour générer des sous-titres automatiques avec synchronisation précise. Le format SRT ou VTT est produit directement, prêt à l’import dans un monteur vidéo.

Agents vocaux et assistants

Les assistants vocaux et agents IA conversationnels exigent du STT en temps réel avec une latence inférieure à 500 ms. Deepgram Nova-3 et le modèle GPT-4o Realtime d’OpenAI sont les références pour ce type d’application. La combinaison STT + LLM + TTS forme la brique de base d’un agent vocal complet.

Accessibilité et conformité

Le sous-titrage en direct est requis par de nombreuses réglementations (RGAA en France, ADA aux États-Unis). Azure AI Speech est souvent privilégié dans ce contexte grâce à son déploiement hybride et ses certifications de conformité (HIPAA, SOC 2). AWS Transcribe propose également une variante médicale dédiée à 0,075 $/min pour les transcriptions cliniques.

Performance en français

Le français est une langue « haute ressource » pour la plupart des modèles STT. Whisper Large-v3 atteint un WER entre 3 et 8 % sur du français propre, comparable à ses performances en anglais. Deepgram Nova-3 et AssemblyAI Universal supportent également le français avec des résultats solides, même si leurs benchmarks publiés se concentrent davantage sur l’anglais.

Pour des applications spécifiquement françaises, vous pouvez aussi considérer des modèles fine-tunés sur des corpus francophones disponibles sur Hugging Face (variantes Whisper entraînées sur Common Voice FR, par exemple). Le fine-tuning sur un vocabulaire métier (médical, juridique, technique) améliore considérablement la précision sur le jargon sectoriel.

Astuce pour le français Avec l’API Whisper d’OpenAI, ajoutez le paramètre language="fr" à votre appel pour forcer la détection en français. Cela évite les erreurs de détection de langue sur les segments courts ou bruités, et améliore sensiblement la précision.

Limites actuelles du STT

Malgré des progrès spectaculaires, le speech-to-text a encore des faiblesses notables. Les hallucinations sont un problème réel : Whisper peut générer du texte fictif sur des segments silencieux ou très bruités. Les accents régionaux forts, le code-switching (mélange de langues dans une même phrase) et le vocabulaire très spécialisé restent des défis. La diarisation au-delà de 4 locuteurs est peu fiable chez la plupart des fournisseurs. Enfin, les performances se dégradent significativement sur les enregistrements téléphoniques basse qualité (codec 8 kHz), avec des WER pouvant dépasser 15-20 %.

Tendances et évolutions

Plusieurs tendances façonnent l’avenir du STT. Les modèles speech-language (comme AssemblyAI Slam-1 ou NVIDIA Canary) fusionnent STT et compréhension du langage dans une seule architecture, permettant de poser des questions sur le contenu audio directement. L’edge AI pousse vers des modèles de plus en plus compacts pour le traitement on-device sans connexion internet. Et la transcription multilingue en temps réel, où le modèle gère plusieurs langues dans une même conversation sans configuration préalable, devient une fonctionnalité standard chez Deepgram Nova-3.

La baisse continue des prix API (GPT-4o Mini Transcribe à 0,003 $/min, soit 0,18 $/heure) et la disponibilité de modèles open source performants rendent le STT accessible à pratiquement tous les budgets. Le coût n’est plus un frein ; c’est la qualité de l’intégration et le traitement post-transcription (correction, formatage, enrichissement) qui font désormais la différence.

Questions fréquentes

Quel est le meilleur outil speech-to-text gratuit ?

Whisper d’OpenAI est le meilleur outil STT gratuit. C’est un modèle open source (licence MIT) que vous pouvez exécuter localement sans aucun coût de licence. Il supporte 99 langues et atteint un WER d’environ 2,7 % sur de l’anglais propre. La variante Turbo est recommandée pour un bon compromis vitesse/précision. Vous aurez besoin d’un GPU avec au moins 2 Go de VRAM pour le modèle Base, ou 10 Go pour Large-v3. Des interfaces graphiques gratuites comme MacWhisper ou WhisperTranscribe simplifient l’utilisation pour les non-développeurs.

Quelle est la différence entre speech-to-text et speech recognition ?

Les deux termes sont souvent utilisés comme synonymes, mais il y a une nuance. Le speech recognition (reconnaissance vocale) englobe toute technologie qui comprend la parole, y compris les commandes vocales et la détection d’intention. Le speech-to-text désigne spécifiquement la transcription de la parole en texte écrit. En pratique, la plupart des APIs modernes combinent les deux : elles transcrivent l’audio en texte et ajoutent des couches d’intelligence (diarisation, détection d’entités, analyse de sentiment).

Combien coûte la transcription automatique par IA ?

Les prix varient considérablement selon le fournisseur et les fonctionnalités. En 2026, comptez entre 0,003 $/min (GPT-4o Mini Transcribe) et 0,024 $/min (AWS Transcribe premier palier). Pour 100 heures d’audio par mois, cela représente entre 18 $ et 144 $. Les fonctionnalités supplémentaires comme la diarisation, l’analyse de sentiment ou la rédaction de PII ajoutent des coûts chez certains fournisseurs (AssemblyAI facture ces add-ons séparément). L’auto-hébergement de Whisper élimine les coûts par minute mais nécessite un investissement GPU d’au moins 276 $/mois.

Le speech-to-text fonctionne-t-il bien en français ?

Oui. Le français est une langue haute ressource, bien couverte par tous les grands modèles STT. Whisper Large-v3 atteint un WER de 3 à 8 % sur du français propre. ElevenLabs, Deepgram et AssemblyAI supportent aussi le français. Pour du vocabulaire métier spécifique (médical, juridique), le fine-tuning de Whisper sur un corpus français dédié améliore significativement les résultats. Forcer la langue avec language="fr" dans les paramètres API évite les erreurs de détection automatique.

Quelle est la différence entre le speech-to-text et le text-to-speech ?

Ce sont deux technologies inversées. Le speech-to-text (STT) convertit la voix en texte écrit : vous parlez, l’IA écrit. Le text-to-speech (TTS) fait l’inverse : vous fournissez du texte, l’IA génère de la parole audio synthétique. Les deux sont souvent combinés dans les agents vocaux IA, où le STT capte la question de l’utilisateur, un LLM génère la réponse, et le TTS la prononce. Des services comme ElevenLabs se spécialisent dans le TTS haute qualité, tandis que Deepgram et AssemblyAI se concentrent sur le STT.