Skip to content

Sprachwecker und Text-zu-Sprache

Was Sie nach dem Lernen tun können

  • Voice Wake Sprachwecker konfigurieren, unterstützt macOS/iOS/Android-Knoten
  • Talk Modus verwenden für fortlaufende Sprachgespräche (Spracheingabe → AI → Sprachausgabe)
  • Mehrere TTS-Anbieter (Edge, OpenAI, ElevenLabs) und automatische Failover-Konfiguration
  • Benutzerdefinierte Sprachwecker-Wörter, TTS-Stimmen und Gesprächsparameter
  • Häufige Probleme mit Sprachfunktionen lösen (Berechtigungen, Audioformate, API-Fehler)

Ihre aktuelle Situation

Sprachinteraktion ist praktisch, aber die Konfiguration kann verwirrend sein:

  • Welchen TTS-Anbieter sollten Sie verwenden? Edge ist kostenlos aber die Qualität ist durchschnittlich, ElevenLabs hat hohe Qualität aber kostet Geld
  • Was ist der Unterschied zwischen Voice Wake und Talk Modus? Wann verwenden Sie welchen?
  • Wie konfigurieren Sie benutzerdefinierte Wecker-Wörter statt dem Standard "clawd"?
  • Wie synchronisieren Sie die Sprachkonfiguration auf verschiedenen Geräten (macOS, iOS, Android)?
  • Warum ist das TTS-Ausgabeformat wichtig? Warum verwendet Telegram Opus während andere Kanäle MP3 verwenden?

Wann Sie diese Funktion verwenden

  • Voice Wake: Wenn Sie eine freihändige Sprachassistent-Erfahrung benötigen. Zum Beispiel die AI durch direktes Sprechen auf macOS oder iOS/Android aufwecken, ohne Tastaturbedienung.
  • Talk Modus: Wenn Sie fortlaufende Sprachgespräche benötigen. Zum Beispiel Mehr-Runden-Gespräche mit der AI per Sprache während des Fahrens, Kochens oder Laufens.
  • TTS-Konfiguration: Wenn möchten, dass KI-Antworten per Sprache abgespielt werden. Zum Beispiel Sprachassistent für ältere Menschen oder sehbehinderte Menschen oder persönliche Sprachassistent-Erfahrung.
  • Benutzerdefinierte Sprache: Wenn Sie mit der Standardsprache nicht zufrieden sind. Zum Beispiel Geschwindigkeit, Tonhöhe, Stabilität anpassen oder zu chinesischen Sprachmodellen wechseln.

🎒 Vorbereitung vor dem Start

Voraussetzungen

Dieses Tutorial setzt voraus, dass Sie Schnellstart abgeschlossen haben, Gateway installiert und gestartet haben. ::

  • Gateway-Daemon läuft
  • Mindestens ein KI-Modell-Anbieter konfiguriert (Anthropic oder OpenAI)
  • Für Voice Wake: macOS/iOS/Android-Gerät installiert und mit Gateway verbunden
  • Für Talk Modus: iOS- oder Android-Knoten verbunden (macOS-Menüleisten-App unterstützt nur Voice Wake)
  • Für ElevenLabs TTS: ElevenLabs API-Key vorbereitet (wenn Sie hochwertige Sprache benötigen)
  • Für OpenAI TTS: OpenAI API-Key vorbereitet (optional, Edge TTS ist kostenlos aber die Qualität ist durchschnittlich)

Berechtigungshinweis

Voice Wake und Talk Modus erfordern folgende Berechtigungen:

  • Mikrofonberechtigung: Wesentlich für Spracheingabe
  • Spracherkennungsberechtigung (Speech Recognition): Sprache zu Text
  • Eingabehilfen-Berechtigung (macOS): Überwachung globaler Tastenkürzel (wie Cmd+Fn push-to-talk) ::

Kernkonzepte

Clawdbot hat drei Sprachfunktionsmodule, die zusammenarbeiten: Voice Wake (Aufwecken), Talk Modus (fortlaufendes Gespräch), TTS (Text-zu-Sprache).

Voice Wake: Globales Wecker-Wort-System

Die Wecker-Wörter sind eine globale Gateway-Konfiguration.

Talk Modus: Sprachgesprächsschleife

Fortlaufende Sprachgesprächsschleife mit Zustandsübergängen Listening → Thinking → Speaking.

TTS: Automatischer Failover zwischen mehreren Anbietern

Unterstützt drei TTS-Anbieter (Edge, OpenAI, ElevenLabs) mit automatischem Failover.

Machen Sie mit

Schritt 1: TTS-Grundkonfiguration

Bearbeiten Sie ~/.clawdbot/clawdbot.json:

yaml
messages:
  tts:
    auto: "always"
    provider: "edge"
    edge:
      enabled: true
      voice: "zh-CN-XiaoxiaoNeural"
      lang: "zh-CN"
      outputFormat: "audio-24khz-48kbitrate-mono-mp3"
bash
clawdbot gateway restart

Schritt 2: ElevenLabs TTS konfigurieren

API-Key auf ElevenLabs-Konsole generieren.

Umgebungsvariablen:

bash
export ELEVENLABS_API_KEY="xi_..."

Oder Konfigurationsdatei:

yaml
messages:
  tts:
    provider: "elevenlabs"
    elevenlabs:
      voiceId: "pMsXgVXv3BLzUgSXRplE"
      modelId: "eleven_multilingual_v2"

Schritt 3: OpenAI TTS als Backup konfigurieren

yaml
messages:
  tts:
    provider: "elevenlabs"
    openai:
      model: "gpt-4o-mini-tts"
      voice: "alloy"

Schritt 4: Voice Wake Wecker-Wörter konfigurieren

Auf der macOS-App gehen Sie zu Settings → Voice Wake um Wecker-Wörter zu bearbeiten.

Oder mit RPC verwenden:

bash
clawdbot gateway rpc voicewake.set '{"triggers":["助手","小助"]}'

Schritt 5: Talk Modus verwenden (iOS/Android)

Tippen Sie auf den Talk-Button in der iOS/Android-App um zu aktivieren.

Kontrollpunkt ✅

  • [ ] TTS-Grundkonfiguration abgeschlossen
  • [ ] KI-Sprachantwort auf mindestens einem Kanal erhalten
  • [ ] Voice Wake Wecker-Wörter benutzerdefiniert
  • [ ] Talk Modus iOS/Android kann starten und Gespräch fortsetzen
  • [ ] TTS-Unterbrechungsfunktion funktioniert korrekt
  • [ ] Kann Anbieter mit /tts-Befehl wechseln
  • [ ] Keine TTS-Fehler in Gateway-Protokollen

Zusammenfassung

  • Die Sprachfunktionen von Clawdbot bestehen aus drei Modulen: Voice Wake, Talk Modus, TTS
  • TTS unterstützt drei Anbieter: Edge (kostenlos), OpenAI (stabil), ElevenLabs (hohe Qualität)
  • Voice Wake verwendet globale Wecker-Wort-Konfiguration
  • Talk Modus unterstützt nur iOS/Android
  • Das TTS-Ausgabeformat wird durch den Kanal bestimmt
  • Empfohlene Konfiguration: ElevenLabs hauptsächlich, OpenAI Backup, Edge TTS für Notfälle

Nächste Lektion

In der nächsten Lektion lernen wir Speichersystem und Vektorsuche.


Anhang: Quellcode-Referenzen

Klicken Sie um Quellcode-Speicherorte anzuzeigen

Aktualisiert: 2026-01-27

FunktionDateipfadZeilennummer
TTS-Kernlogiksrc/tts/tts.ts1-1472
ElevenLabs TTSsrc/tts/tts.ts916-991
OpenAI TTSsrc/tts/tts.ts993-1037
Edge TTSsrc/tts/tts.ts1050-1069
Voice Wake-Konfigurationsverwaltungsrc/infra/voicewake.ts1-91