Réveil vocal et synthèse vocale

Ce que vous pourrez faire après avoir appris

Configurer Voice Wake réveil vocal, prend en charge les nœuds macOS/iOS/Android
Utiliser Talk Mode pour une conversation vocale continue (entrée vocale → IA → sortie vocale)
Configurer plusieurs fournisseurs TTS (Edge, OpenAI, ElevenLabs) et basculement automatique en cas de panne
Personnaliser les mots de réveil vocal, les voix TTS et les paramètres de conversation
Dépanner les problèmes courants des fonctions vocales (autorisations, formats audio, erreurs API)

Votre situation actuelle

L'interaction vocale est pratique, mais la configuration peut être confuse :

Quel fournisseur TTS devriez-vous utiliser ? Edge est gratuit mais la qualité est moyenne, ElevenLabs est de haute qualité mais payant
Quelle est la différence entre Voice Wake et Talk Mode ? Quand utiliser chacun ?
Comment configurer des mots de réveil personnalisés au lieu de "clawd" par défaut ?
Comment synchroniser la configuration vocale sur différents appareils (macOS, iOS, Android) ?
Pourquoi le format de sortie TTS est-il important ? Pourquoi Telegram utilise-t-il Opus alors que d'autres canaux utilisent MP3 ?

Quand utiliser cette fonction

Voice Wake : Lorsque vous avez besoin d'une expérience d'assistant vocal mains libres. Par exemple, réveiller l'IA en parlant directement sur macOS ou iOS/Android sans opération de clavier.
Talk Mode : Lorsque vous avez besoin d'une conversation vocale continue. Par exemple, conversation de plusieurs tours avec l'IA par voix en conduisant, cuisinant ou marchant.
Configuration TTS : Lorsque vous souhaitez que les réponses de l'IA soient lues par voix. Par exemple, assistant vocal pour les personnes âgées ou malvoyantes, ou expérience personnelle d'assistant vocal.
Voix personnalisée : Lorsque vous n'êtes pas satisfait de la voix par défaut. Par exemple, ajuster la vitesse, la hauteur, la stabilité, ou changer vers des modèles de voix en chinois.

🎒 Préparatifs avant de commencer

Conditions préalables

Ce tutoriel suppose que vous avez terminé Démarrage rapide, avez installé et démarré Gateway. ::

Le démon Gateway est en cours d'exécution
Au moins un fournisseur de modèle IA est configuré (Anthropic ou OpenAI)
Pour Voice Wake : Appareil macOS/iOS/Android installé et connecté à Gateway
Pour Talk Mode : Nœud iOS ou Android connecté (l'application de barre de menu macOS ne prend en charge que Voice Wake)
Pour ElevenLabs TTS : Clé API ElevenLabs préparée (si vous avez besoin d'une voix de haute qualité)
Pour OpenAI TTS : Clé API OpenAI préparée (optionnel, Edge TTS est gratuit mais la qualité est moyenne)

Avertissement d'autorisations

Voice Wake et Talk Mode nécessitent les autorisations suivantes :

Autorisation de microphone : Essentielle pour l'entrée vocale
Autorisation de reconnaissance vocale (Speech Recognition) : Voix vers texte
Autorisation d'accessibilité (macOS) : Surveillance des raccourcis globaux (comme Cmd+Fn push-to-talk) ::

Concepts clés

Clawdbot possède trois modules de fonctions vocales qui travaillent ensemble : Voice Wake (réveil), Talk Mode (conversation continue), TTS (synthèse vocale).

Voice Wake : Système global de mots de réveil

Les mots de réveil sont une configuration globale de Gateway.

Talk Mode : Boucle de conversation vocale

Boucle de conversation vocale continue avec transitions d'état Listening → Thinking → Speaking.

TTS : Basculement automatique en cas de panne entre plusieurs fournisseurs

Prend en charge trois fournisseurs TTS (Edge, OpenAI, ElevenLabs) avec basculement automatique en cas de panne.

Suivez-moi

Étape 1 : Configurer TTS de base

Modifier ~/.clawdbot/clawdbot.json :

yaml

messages:
  tts:
    auto: "always"
    provider: "edge"
    edge:
      enabled: true
      voice: "zh-CN-XiaoxiaoNeural"
      lang: "zh-CN"
      outputFormat: "audio-24khz-48kbitrate-mono-mp3"

bash

clawdbot gateway restart

Étape 2 : Configurer ElevenLabs TTS

Générer la clé API sur console ElevenLabs.

Variables d'environnement :

bash

export ELEVENLABS_API_KEY="xi_..."

Ou fichier de configuration :

yaml

messages:
  tts:
    provider: "elevenlabs"
    elevenlabs:
      voiceId: "pMsXgVXv3BLzUgSXRplE"
      modelId: "eleven_multilingual_v2"

Étape 3 : Configurer OpenAI TTS comme sauvegarde

yaml

messages:
  tts:
    provider: "elevenlabs"
    openai:
      model: "gpt-4o-mini-tts"
      voice: "alloy"

Étape 4 : Configurer les mots de réveil Voice Wake

Sur l'application macOS, allez dans Settings → Voice Wake pour modifier les mots de réveil.

Ou en utilisant RPC :

bash

clawdbot gateway rpc voicewake.set '{"triggers":["助手","小助"]}'

Étape 5 : Utiliser Talk Mode (iOS/Android)

Appuyez sur le bouton Talk dans l'application iOS/Android pour activer.

Point de contrôle ✅

[ ] Configuration TTS de base terminée
[ ] Réponse vocale IA reçue sur au moins un canal
[ ] Mots de réveil Voice Wake personnalisés
[ ] Talk Mode iOS/Android peut démarrer et maintenir la conversation
[ ] Fonction d'interruption TTS fonctionne correctement
[ ] Peut changer de fournisseur avec la commande /tts
[ ] Pas d'erreurs TTS dans les journaux Gateway

Résumé

Les fonctions vocales de Clawdbot comprennent trois modules : Voice Wake, Talk Mode, TTS
TTS prend en charge trois fournisseurs : Edge (gratuit), OpenAI (stable), ElevenLabs (haute qualité)
Voice Wake utilise la configuration globale des mots de réveil
Talk Mode ne prend en charge que iOS/Android
Le format de sortie TTS est déterminé par le canal
Configuration recommandée : ElevenLabs principal, OpenAI sauvegarde, Edge TTS pour les urgences

Prochaine leçon

Dans la prochaine leçon, nous apprendrons Système de mémoire et recherche vectorielle.

Annexe : Références du code source

Cliquez pour afficher les emplacements du code source

Mis à jour : 2026-01-27

Fonction	Chemin du fichier	Numéro de ligne
Logique principale TTS	`src/tts/tts.ts`	1-1472
ElevenLabs TTS	`src/tts/tts.ts`	916-991
OpenAI TTS	`src/tts/tts.ts`	993-1037
Edge TTS	`src/tts/tts.ts`	1050-1069
Gestion de configuration Voice Wake	`src/infra/voicewake.ts`	1-91

Utilisation depuis zéro

Intégration d'outils de chat courants

Débloquer les superpouvoirs de l'IA

Que faire en cas de problème

Réveil vocal et synthèse vocale

Ce que vous pourrez faire après avoir appris

Votre situation actuelle

Quand utiliser cette fonction

🎒 Préparatifs avant de commencer

Concepts clés

Voice Wake : Système global de mots de réveil

Talk Mode : Boucle de conversation vocale

TTS : Basculement automatique en cas de panne entre plusieurs fournisseurs

Suivez-moi

Étape 1 : Configurer TTS de base

Étape 2 : Configurer ElevenLabs TTS

Étape 3 : Configurer OpenAI TTS comme sauvegarde

Étape 4 : Configurer les mots de réveil Voice Wake

Étape 5 : Utiliser Talk Mode (iOS/Android)

Point de contrôle ✅

Résumé

Prochaine leçon

Annexe : Références du code source

Réveil vocal et synthèse vocale ​

Ce que vous pourrez faire après avoir appris ​

Votre situation actuelle ​

Quand utiliser cette fonction ​

🎒 Préparatifs avant de commencer ​

Concepts clés ​

Voice Wake : Système global de mots de réveil ​

Talk Mode : Boucle de conversation vocale ​

TTS : Basculement automatique en cas de panne entre plusieurs fournisseurs ​

Suivez-moi ​

Étape 1 : Configurer TTS de base ​

Étape 2 : Configurer ElevenLabs TTS ​

Étape 3 : Configurer OpenAI TTS comme sauvegarde ​

Étape 4 : Configurer les mots de réveil Voice Wake ​

Étape 5 : Utiliser Talk Mode (iOS/Android) ​

Point de contrôle ✅ ​

Résumé ​

Prochaine leçon ​

Annexe : Références du code source ​

Réveil vocal et synthèse vocale

Ce que vous pourrez faire après avoir appris

Votre situation actuelle

Quand utiliser cette fonction

🎒 Préparatifs avant de commencer

Concepts clés

Voice Wake : Système global de mots de réveil

Talk Mode : Boucle de conversation vocale

TTS : Basculement automatique en cas de panne entre plusieurs fournisseurs

Suivez-moi

Étape 1 : Configurer TTS de base

Étape 2 : Configurer ElevenLabs TTS

Étape 3 : Configurer OpenAI TTS comme sauvegarde

Étape 4 : Configurer les mots de réveil Voice Wake

Étape 5 : Utiliser Talk Mode (iOS/Android)

Point de contrôle ✅

Résumé

Prochaine leçon

Annexe : Références du code source