Descript
L’éditeur audio/vidéo qui se manipule comme un document texte. Transcription IA, Overdub (clonage vocal), suppression des mots parasites, screen recording et collaboration.
Qu’est-ce que Descript ?
Descript est un éditeur audio et vidéo alimenté par l’IA dont le principe fondateur est radical : vous éditez vos médias en éditant du texte. Uploadez une vidéo ou un enregistrement audio, Descript le transcrit automatiquement, et vous pouvez ensuite couper, réorganiser ou supprimer du contenu simplement en modifiant la transcription. Supprimez un mot du texte, il disparaît de l’audio. C’est un changement de paradigme pour quiconque trouve les timelines traditionnelles de Premiere ou Final Cut intimidantes.
Descript a été fondé en 2017 par Andrew Mason (le créateur de Groupon) comme un spin-off de Detour, une application de guides audio rachetée par Bose. L’entreprise a levé environ 100 millions de dollars, dont un Series C de 50 millions mené par l’OpenAI Startup Fund en 2022, valorisant l’entreprise à environ 550 millions de dollars. Descript compte environ 186 employés, plus de 6 millions de créateurs inscrits, et a traité plus de 200 millions de minutes d’audio et vidéo. L’assistant IA intégré, Underlord, aide à générer, éditer et designer les vidéos. En août 2025, Andrew Mason a cédé le poste de CEO à Laura Burkhauser.
Descript est le meilleur outil pour les créateurs qui ne sont pas des monteurs professionnels. Le concept « éditer du texte = éditer la vidéo » fonctionne remarquablement bien pour les podcasts, les interviews, les tutoriels et les vidéos marketing. Les fonctionnalités IA (suppression des mots parasites, Studio Sound, Eye Contact, Green Screen IA) font gagner un temps considérable. Overdub est impressionnant pour corriger un mot ou une phrase. La limite : Descript n’est pas un substitut complet à Premiere ou DaVinci pour le montage complexe (effets visuels avancés, color grading fin, compositing multicouche). C’est un outil complémentaire qui excelle sur son créneau.
✓ Forces
- Édition text-based révolutionnaire : supprimer un mot du transcript le supprime de la vidéo
- Overdub : cloner votre voix pour corriger ou ajouter du texte sans ré-enregistrer
- Studio Sound : amélioration IA de la qualité audio (suppression bruit, clarté vocale)
- Suppression automatique des « euh », « hum » et silences en un clic
- Screen recording intégré avec multi-piste (écran + caméra séparés)
- Underlord : co-éditeur IA qui aide à créer, découper et designer les vidéos
- Collaboration en temps réel avec commentaires, comme un Google Doc pour la vidéo
✗ Limites
- Pas un remplaçant pour Premiere/DaVinci sur le montage avancé (VFX, color grading, compositing)
- Transcription imparfaite sur les noms propres, termes techniques et accents prononcés
- Overdub est efficace pour des corrections ponctuelles, moins pour des narrations complètes
- Nécessite une connexion internet stable, pas de mode hors ligne complet
- Le plan Free est très limité (1h de transcription, export 720p avec watermark)
Pricing
Descript utilise un système combinant heures de transcription (Media Minutes) et crédits IA (pour les fonctionnalités comme Underlord, Studio Sound, Green Screen, Eye Contact). Le stockage cloud varie de 5 Go à 2 To selon le plan.
Free : 1h de transcription/mois, 5 min de speech IA, export 720p avec watermark, 5 Go de stockage. Hobbyist : 16 $/mois (12 $ en annuel), 10h de transcription, 30 min de speech IA, export 1080p sans watermark. Creator : 24 $/mois en annuel, 30h de transcription, 2h de speech IA, export 4K, accès complet à Studio Sound et Eye Contact. Business : 50 $/mois (environ 40 $ en annuel), 40h de transcription, 5h de speech IA, Brand Studio, collaboration d’équipe, support prioritaire. Enterprise : tarif custom, SSO, stockage illimité, account manager dédié. Un plan Education/Non-profit est aussi disponible à 5 $/user/mois.
Fonctionnalités clés
Édition text-based est le coeur de Descript. L’outil transcrit votre fichier audio ou vidéo, puis synchronise le texte avec le média. Vous éditez le texte comme dans un traitement de texte, et les modifications se répercutent instantanément sur la timeline. C’est particulièrement puissant pour les interviews et les podcasts : supprimer un passage entier prend quelques secondes au lieu de minutes de scrubbing dans une timeline.
Overdub permet de cloner votre voix. Vous enregistrez un échantillon d’entraînement, puis vous pouvez générer de nouvelles phrases en tapant du texte. Descript utilise un système de vérification d’identité pour empêcher l’utilisation frauduleuse. En pratique, Overdub est excellent pour corriger un mot mal prononcé ou ajouter une phrase de transition, mais la qualité reste en dessous d’ElevenLabs pour des narrations complètes.
Studio Sound améliore la qualité de l’audio par IA : suppression du bruit de fond, réduction de l’écho, amélioration de la clarté vocale. Combiné avec la suppression automatique des filler words (« euh », « hum », pauses), c’est un gain de temps massif en post-production. Eye Contact ajuste artificiellement le regard pour qu’il semble dirigé vers la caméra, et Green Screen IA supprime l’arrière-plan sans fond vert physique.
Underlord est le co-éditeur IA de Descript, lancé comme un assistant agentique en 2026. Décrivez ce que vous voulez (découper les meilleurs moments, créer des clips sociaux, ajouter des transitions), et Underlord exécute. C’est positionné comme un « Cursor pour la vidéo » : vous dirigez, l’IA fait le travail technique. Les Smart Transitions ajoutent des transitions scène-à-scène automatiques.