Wake Word (Mot d’Activation Vocale)

Un wake word (mot d’activation, hotword ou trigger word) est un mot ou une courte phrase prédéfinie qui fait passer un système vocal de l’écoute passive à l’écoute active, signalant à l’appareil qu’il doit traiter la commande vocale qui suit.

« Alexa », « Hey Siri », « OK Google » : ces mots sont devenus des réflexes quotidiens pour des centaines de millions d’utilisateurs. Mais le mécanisme qui les rend possibles est plus sophistiqué qu’il n’y paraît. Le wake word est la première couche de sécurité et d’efficacité d’un assistant vocal : sans lui, l’appareil devrait soit écouter et transcrire en permanence (cauchemar pour la vie privée et la batterie), soit nécessiter une action physique (appui sur un bouton) pour chaque interaction.

Aussi appelé: Hotword, trigger word, keyword spotting, mot-clé d’activation
Exemples: « Alexa », « Hey Siri », « OK Google », « Hey Mycroft »
Traitement: 100 % on-device (pas de cloud)
Taille modèle: 20 Ko à 2 Mo selon la précision
Métriques clés: FRR (False Reject Rate) et FAR (False Accept Rate)
Solutions: Porcupine (Picovoice), Sensory, openWakeWord, microWakeWord

Comment fonctionne la détection de wake word

Le principe est simple en surface, mais l’ingénierie sous-jacente est complexe. Voici le pipeline complet, étape par étape.

1. Flux audio continu

Le microphone de l’appareil (enceinte connectée, smartphone, casque, voiture) capte l’audio en permanence. Ce flux brut est découpé en petites fenêtres temporelles (typiquement 20 à 30 ms) pour le traitement en temps réel. À ce stade, aucun audio n’est enregistré ni transmis : tout se passe dans la mémoire volatile du processeur embarqué.

2. Extraction de caractéristiques acoustiques

Pour chaque fenêtre audio, le système extrait des caractéristiques pertinentes pour la reconnaissance vocale. La méthode la plus courante utilise les coefficients MFCC (Mel-Frequency Cepstral Coefficients), qui représentent les composantes fréquentielles de la parole d’une manière similaire à la perception de l’oreille humaine. D’autres approches utilisent des spectrogrammes ou des représentations apprises directement par des réseaux de neurones.

3. Évaluation par le modèle de détection

Les caractéristiques extraites sont passées dans un modèle de machine learning entraîné spécifiquement pour reconnaître le wake word. Ce modèle est un réseau de neurones léger, optimisé pour tourner en temps réel sur des processeurs à faible consommation (ARM Cortex-M, DSP, puces custom comme les AZ3 d’Amazon).

Certaines implémentations utilisent une architecture en trois étapes (comme celle de Picovoice Porcupine) : un modèle de filtrage isole les composantes fréquentielles les plus pertinentes, un modèle d’encodage prépare les données pour la classification, et un modèle de détection identifie la présence du wake word. Cette décomposition permet de maximiser l’efficacité énergétique.

Le modèle évalue chaque fenêtre audio contre un seuil de confiance. Si le score dépasse le seuil, le wake word est considéré comme détecté. Le réglage de ce seuil est critique : trop bas, et le système se déclenche sur des bruits parasites (faux positif) ; trop haut, et il ignore des commandes légitimes (faux négatif).

4. Signal d’activation

Quand le wake word est détecté, le système émet un signal d’activation. Sur un smart speaker, cela se traduit par l’allumage de la barre LED, un son de confirmation et le début de l’enregistrement audio qui sera envoyé au cloud (ou traité localement) pour la reconnaissance vocale complète.

Le point crucial : tout est local La détection du wake word se fait intégralement sur l’appareil, sans connexion internet, sans envoi de données au cloud, et sans stockage de l’audio. C’est un choix de conception délibéré pour des raisons de vie privée, de latence (réponse instantanée) et de consommation énergétique. Seul l’audio capturé après le wake word est potentiellement transmis au cloud.

Métriques de performance : FRR, FAR et au-delà

Évaluer la qualité d’un système de wake word repose sur deux métriques fondamentales, qui s’opposent naturellement.

False Reject Rate (FRR) : les ratés

Le FRR mesure le pourcentage de fois où le wake word est effectivement prononcé mais n’est pas détecté par le système. Un FRR élevé signifie que vous devez répéter « Alexa » plusieurs fois avant d’être entendu. Les systèmes commerciaux visent un FRR inférieur à 5 %, c’est-à-dire plus de 95 % de détection correcte.

False Accept Rate (FAR) : les faux déclenchements

Le FAR mesure la fréquence des déclenchements erronés, quand le système croit avoir entendu le wake word alors que ce n’est pas le cas. On l’exprime souvent en faux déclenchements par heure d’audio. Les solutions de qualité production visent moins d’une fausse activation par heure dans des conditions normales.

Le compromis FRR/FAR

FRR et FAR sont inversement corrélés : abaisser l’un augmente l’autre. Un seuil de détection permissif captera le wake word à tous les coups (FRR bas) mais se déclenchera aussi sur des mots similaires (FAR élevé). Un seuil strict éliminera les faux positifs (FAR bas) mais ratera des commandes légitimes (FRR élevé).

Le réglage optimal dépend du contexte d’usage. Pour une enceinte dans un salon calme, on peut se permettre un seuil plus permissif. Pour un dispositif dans une voiture avec bruit de fond ou dans un open space, il faut un seuil plus strict, quitte à exiger une prononciation plus nette du wake word.

Méfiez-vous des chiffres « d’accuracy » sans contexte Un fournisseur qui annonce « 99 % d’accuracy » sans préciser le FRR, le FAR et les conditions de test (bruit ambiant, distance du microphone, diversité des voix) ne vous dit rien d’utile. Exigez toujours le FRR à un FAR fixe (par exemple, FRR de 3 % pour un FAR de 1 fausse activation par heure). C’est la seule façon de comparer objectivement deux solutions.

Pourquoi les wake words sont conçus comme ils sont

Le choix d’un wake word n’est pas arbitraire. Plusieurs contraintes techniques et linguistiques guident la conception.

Nombre de syllabes

Les wake words efficaces contiennent généralement 3 à 4 syllabes. Trop court (une syllabe), et le risque de faux déclenchements explose : le mot ressemble à trop de sons courants. Trop long, et l’utilisateur perd patience. « Alexa » (3 syllabes), « Hey Siri » (3 syllabes) et « OK Google » (4 syllabes) respectent cette règle.

Distinctivité phonétique

Le wake word doit contenir des sons distinctifs, qui se démarquent du bruit de fond et des mots courants. Les consonnes plosives (k, t, p) et les fricatives (s, sh) sont plus faciles à détecter que les voyelles seules. « Alexa » combine le son « l » et le « x » (ks), une combinaison peu fréquente en anglais courant.

Robustesse multilingue

Pour les produits mondiaux, le wake word doit être prononçable dans différentes langues sans créer de confusion avec des mots locaux. C’est un défi permanent : un mot parfaitement distinctif en anglais peut ressembler à un mot courant en espagnol ou en mandarin.

Identité de marque

Le wake word est devenu un outil de branding puissant. Quand un utilisateur dit « Alexa » au lieu de « OK Google », il interagit avec la marque Amazon, pas avec un assistant générique. Plusieurs entreprises développent des wake words personnalisés (« Hey BMW », « Hey Mercedes ») pour que l’utilisateur ait le sentiment de parler au produit plutôt qu’à une plateforme tierce.

Solutions techniques pour développeurs

Si vous construisez un produit vocal, voici les principales options pour intégrer la détection de wake word.

Solution	Type	Plateformes	Wake words custom	Taille modèle	Prix
Porcupine (Picovoice)	Commercial	iOS, Android, Web, Embedded, React Native	Oui (entraînement en secondes)	Léger	Freemium + plans payants
Sensory TrulyHandsfree	Commercial	Embedded (ARM Cortex-M, DSP)	Oui (via VoiceHub)	20 Ko à 2 Mo	Licence enterprise
SoundHound Houndify	Commercial	Mobile, Embedded	Oui (2 tiers : POC + production)	Variable	Sur devis
openWakeWord	Open Source	Python, Home Assistant	Oui (entraînement custom)	Moyen	Gratuit
microWakeWord	Open Source	ESP32, Android (Home Assistant)	Limité (3 modèles disponibles)	Très léger	Gratuit
Spokestack	Commercial	iOS, Android, Web	Oui (few-shot transfer learning)	Léger	Freemium

Porcupine (Picovoice) : la référence

Porcupine est le moteur de wake word le plus largement déployé, utilisé par des entreprises Fortune 500 et même par la NASA. Il affiche un taux de détection supérieur à 95 % avec moins d’une fausse alarme par heure dans des conditions typiques. L’entraînement de wake words personnalisés se fait en quelques secondes via la console Picovoice, et les modèles supportent 9 langues dont le français. Le SDK est disponible pour quasiment toutes les plateformes (iOS, Android, React Native, web, Linux, Raspberry Pi, microcontrôleurs).

openWakeWord et microWakeWord : les alternatives open source

openWakeWord, développé par David Scripka, est le projet open source de référence pour la détection de wake word. Il est au cœur de l’écosystème Home Assistant et permet à quiconque d’entraîner un modèle basique pour son propre wake word. Il utilise un modèle d’embedding audio open source de Google, affiné avec le système de synthèse vocale Piper pour générer des données d’entraînement synthétiques.

microWakeWord est une version plus légère, basée sur l’architecture Inception de Google, qui peut tourner sur des microcontrôleurs ESP32-S3 et sur les téléphones Android via l’application Home Assistant. Depuis mars 2026, l’application Home Assistant Companion sur Android intègre nativement la détection de wake word via microWakeWord, avec traitement entièrement local. Trois wake words sont disponibles : « Hey Nabu », « Hey Jarvis » et « Hey Mycroft ».

Sensory : l’expert embedded

Sensory est un vétéran du secteur (plus de 30 ans d’expérience en IA vocale embarquée), dont la technologie est déployée dans des milliards d’appareils. Ses modèles sont optimisés pour les processeurs à très faible consommation (ARM Cortex-M, Cadence HiFi DSP) et offrent les taux de FRR/FAR les plus bas du marché sur les benchmarks standards. La plateforme VoiceHub permet aux fabricants de créer et déployer des wake words personnalisés. Sensory propose aussi des variantes avancées : Smart Wake Words (actifs uniquement dans certains contextes), Secure Wake Words (avec vérification biométrique vocale) et Personalized Wake Words.

Créer son propre wake word

Que ce soit pour un produit commercial ou un projet personnel, voici les étapes pour créer un wake word personnalisé.

1. Choisir la phrase

Visez 3 à 4 syllabes. Incluez des consonnes distinctives. Évitez les mots qui ressemblent à des termes courants dans les langues de vos utilisateurs. Testez la prononçabilité avec différents accents. Les formulations « Hey [Nom] » fonctionnent bien car elles sont naturelles et facilement identifiables.

2. Collecter ou générer des données

Les approches modernes utilisent la synthèse vocale (TTS) pour générer des milliers de variantes du wake word avec différentes voix, accents et intonations. Cela élimine le besoin de collecter manuellement des milliers d’enregistrements. openWakeWord utilise Piper TTS pour cette étape. Picovoice permet l’entraînement en quelques secondes via sa console sans aucune donnée manuelle.

3. Entraîner le modèle

Le modèle est entraîné pour distinguer le wake word des bruits de fond, de la parole normale et de mots phonétiquement proches. L’entraînement inclut des exemples positifs (le wake word prononcé correctement) et des exemples négatifs (tout ce qui ne l’est pas). Les plateformes commerciales gèrent ce processus automatiquement.

4. Tester et calibrer

Testez dans des conditions réalistes : bruit de fond, distance du microphone, différentes voix et accents. Ajustez le seuil de sensibilité. Mesurez le FRR et le FAR. Itérez jusqu’à trouver le bon équilibre pour votre cas d’usage.

5. Compiler et déployer

Le modèle entraîné est compilé pour la plateforme cible (mobile, web, embedded) afin de s’exécuter efficacement. Sur les microcontrôleurs, le modèle est converti au format TFLite ou ONNX pour une inférence optimisée.

Pour les projets Home Assistant Si vous voulez un assistant vocal privé et local, Home Assistant + openWakeWord est la combinaison la plus accessible. Un ESP32-S3 (comme l’Atom Echo à 13 $) suffit comme satellite vocal. Le wake word est détecté localement, et la transcription peut se faire sur votre serveur Home Assistant sans jamais toucher au cloud.

Wake words et vie privée

Le wake word est souvent présenté comme un garde-fou pour la vie privée, et c’est en partie vrai. Mais il faut comprendre les nuances.

Ce qui est local : la détection du wake word elle-même. Le modèle tourne en permanence sur l’appareil, analyse l’audio en temps réel et ne stocke rien. Aucune donnée n’est transmise au cloud tant que le wake word n’est pas détecté.

Ce qui est envoyé au cloud : l’audio capturé après le wake word. Chez Amazon et Google, ces enregistrements sont transmis aux serveurs pour la reconnaissance vocale et le traitement. Apple traite davantage de requêtes localement via le Neural Engine. Chez les trois acteurs, vous pouvez consulter et supprimer votre historique vocal.

Le problème des faux déclenchements : quand le système détecte un faux positif (il croit avoir entendu le wake word), il enregistre et transmet quelques secondes d’audio qui ne lui étaient pas destinées. Des études ont montré que les assistants vocaux se déclenchent accidentellement plusieurs fois par jour selon l’environnement sonore. C’est la faille la plus concrète en termes de vie privée.

La solution radicale : le traitement 100 % local. Des projets comme Home Assistant avec openWakeWord/microWakeWord permettent de faire tourner l’intégralité du pipeline vocal (wake word + reconnaissance vocale + traitement) sur votre propre matériel, sans qu’aucune donnée ne quitte votre réseau local.

Avancées récentes et tendances

Wake word + identification du locuteur (Voice ID). En combinant la détection du wake word avec la reconnaissance du locuteur, le système peut non seulement savoir qu’on lui parle, mais identifier qui parle. Cela permet des réponses personnalisées (calendrier de la bonne personne, préférences musicales individuelles) et renforce la sécurité en limitant certaines actions aux utilisateurs autorisés.

Wake words contextuels. Sensory développe des « Smart Wake Words » qui ne s’activent que dans certains contextes. Par exemple, le wake word d’un assistant automobile ne se déclenche que lorsque le véhicule est en marche, réduisant les faux positifs quand la voiture est garée dans un garage à côté d’une enceinte connectée.

Wake word sur Android natif. Depuis mars 2026, Home Assistant permet la détection de wake word directement sur les téléphones Android via l’application Companion, sans matériel supplémentaire. Le traitement se fait entièrement on-device via microWakeWord, préservant la batterie et la vie privée.

Modèles ultra-légers pour l’IoT. Les modèles de wake word atteignent des tailles de 20 Ko à 2 Mo, permettant leur déploiement sur des microcontrôleurs à quelques dollars (ESP32, ARM Cortex-M). Cela ouvre la porte à l’activation vocale pour des appareils jusqu’ici « muets » : électroménager, jouets, équipements industriels, dispositifs médicaux.

Verdict

Le wake word est une technologie invisible mais fondamentale. Sans lui, pas d’interaction vocale naturelle et pas de protection efficace de la vie privée des utilisateurs. C’est la porte d’entrée de tout système vocal, et sa qualité détermine directement l’expérience utilisateur.

Pour les développeurs qui construisent un produit vocal, Porcupine (Picovoice) est la solution la plus complète et la plus facile à intégrer, avec un support multi-plateforme et un entraînement de wake words personnalisés en quelques secondes. Pour les projets de domotique privée, openWakeWord + Home Assistant offre une alternative entièrement locale et gratuite. Pour les fabricants d’appareils embarqués à très faible consommation, Sensory reste la référence avec ses modèles optimisés pour les microcontrôleurs.

Le conseil le plus important : ne sous-estimez pas le seuil de détection. Un mauvais réglage FRR/FAR ruinera l’expérience utilisateur plus sûrement que n’importe quel autre composant de votre pipeline vocal.

Questions fréquentes sur les wake words

Mon enceinte connectée m’écoute-t-elle en permanence ?

Elle écoute en permanence au sens où le microphone est actif et un modèle local analyse l’audio en temps réel. Mais elle n’enregistre rien, ne stocke rien et n’envoie rien au cloud tant que le wake word n’est pas détecté. Le modèle de wake word est un petit réseau de neurones embarqué qui ne fait qu’une seule chose : chercher sa phrase d’activation. L’audio est traité en mémoire volatile et immédiatement supprimé. Ce n’est qu’après la détection du wake word que l’enregistrement et la transmission commencent.

Peut-on changer le wake word de son assistant vocal ?

Chez Amazon, Alexa supporte quelques alternatives au wake word par défaut (« Amazon », « Echo », « Computer », « Ziggy »). Chez Google et Apple, le wake word est fixe (« OK Google » / « Hey Google » et « Hey Siri » / « Siri »). Pour une personnalisation complète, il faut utiliser des solutions tierces comme Home Assistant avec openWakeWord, qui permet de créer n’importe quel wake word personnalisé.

Pourquoi mon assistant se déclenche-t-il sans que je l’aie appelé ?

Les faux déclenchements (false accepts) surviennent quand un son ambiant ressemble phonétiquement au wake word. La télévision qui dit un mot proche de « Alexa », un prénom similaire dans une conversation, ou même certains sons musicaux peuvent tromper le modèle. Pour réduire ce problème : éloignez l’enceinte de la télévision, activez le mode « ne pas déranger » quand vous n’utilisez pas l’assistant, ou choisissez un wake word alternatif si disponible. Certains systèmes ajoutent aussi la reconnaissance du locuteur (Voice ID) pour ignorer les voix non familières.

Comment créer un wake word personnalisé pour mon application ?

La méthode la plus rapide est d’utiliser Picovoice Console : vous saisissez votre phrase, la plateforme entraîne un modèle en quelques secondes et vous téléchargez le modèle compilé pour votre plateforme cible (iOS, Android, web, embedded). Le français est supporté. Pour une solution open source, openWakeWord permet d’entraîner vos propres modèles en utilisant la synthèse vocale pour générer les données d’entraînement, éliminant le besoin de collecter manuellement des enregistrements.

Quelle est la différence entre wake word detection et speech recognition ?

La détection de wake word est une tâche beaucoup plus simple que la reconnaissance vocale (ASR) complète. Le wake word detector ne cherche qu’une seule phrase spécifique et fonctionne avec un modèle ultra-léger (20 Ko à 2 Mo) qui tourne en permanence sur des processeurs à faible consommation. L’ASR, en revanche, doit transcrire n’importe quelle parole en texte, ce qui nécessite des modèles bien plus lourds et souvent un traitement cloud. Certains développeurs utilisent l’ASR pour détecter les wake words, mais c’est inefficace : cela consomme beaucoup plus de ressources et de batterie pour un résultat souvent moins précis sur cette tâche spécifique.