Skip to content

Голосовое пробуждение и текст в речь

Что вы сможете сделать после обучения

  • Настроить Voice Wake голосовое пробуждение, поддерживает узлы macOS/iOS/Android
  • Использовать Talk Mode для непрерывного голосового разговора (голосовой ввод → ИИ → голосовой вывод)
  • Настроить несколько поставщиков TTS (Edge, OpenAI, ElevenLabs) и автоматическое переключение при сбое
  • Персонализировать слова пробуждения, голоса TTS и параметры разговора
  • Решать общие проблемы голосовых функций (разрешения, форматы аудио, ошибки API)

Ваша текущая ситуация

Голосовое взаимодействие удобно, но настройка может быть запутанной:

  • Какого поставщика TTS следует использовать? Edge бесплатный, но качество среднее, ElevenLabs высокое качество, но платный
  • В чём разница между Voice Wake и Talk Mode? Когда использовать каждый?
  • Как настроить персонализированные слова пробуждения вместо стандартного "clawd"?
  • Как синхронизировать настройку голоса на разных устройствах (macOS, iOS, Android)?
  • Почему формат вывода TTS важен? Почему Telegram использует Opus, а другие каналы MP3?

Когда использовать эту функцию

  • Voice Wake: Когда вам нужен опыт голосового помощника без рук. Например, разбудить ИИ, говоря напрямую на macOS или iOS/Android без операций с клавиатурой.
  • Talk Mode: Когда вам нужен непрерывный голосовой разговор. Например, многоцикличный разговор с ИИ голосом во время вождения, готовки или ходьбы.
  • Настройка TTS: Когда вы хотите, чтобы ответы ИИ воспроизводились голосом. Например, голосовой помощник для пожилых или слабовидящих людей или личный опыт голосового помощника.
  • Персонализированный голос: Когда вы не удовлетворены стандартным голосом. Например, настроить скорость, высоту тона, стабильность или переключиться на китайские голосовые модели.

🎒 Подготовка перед началом

Предварительные требования

Этот учебник предполагает, что вы завершили Быстрый старт, установили и запустили Gateway. ::

  • Демон Gateway запущен
  • Настроен хотя бы один поставщик модели ИИ (Anthropic или OpenAI)
  • Для Voice Wake: Устройство macOS/iOS/Android установлено и подключено к Gateway
  • Для Talk Mode: Узел iOS или Android подключен (приложение панели меню macOS поддерживает только Voice Wake)
  • Для ElevenLabs TTS: API ключ ElevenLabs подготовлен (если вам нужен высококачественный голос)
  • Для OpenAI TTS: API ключ OpenAI подготовлен (опционально, Edge TTS бесплатный, но качество среднее)

Уведомление о разрешениях

Voice Wake и Talk Mode требуют следующие разрешения:

  • Разрешение на микрофон: Необходимо для голосового ввода
  • Разрешение на распознавание речи (Speech Recognition): Речь в текст
  • Разрешение на специальные возможности (macOS): Мониторинг глобальных горячих клавиш (например, Cmd+Fn push-to-talk) ::

Ключевые концепции

Clawdbot имеет три модуля голосовых функций, которые работают вместе: Voice Wake (пробуждение), Talk Mode (непрерывный разговор), TTS (текст в речь).

Voice Wake: Глобальная система слов пробуждения

Слова пробуждения являются глобальной настройкой Gateway.

Talk Mode: Цикл голосового разговора

Непрерывный цикл голосового разговора с переходами состояний Listening → Thinking → Speaking.

TTS: Автоматическое переключение при сбое между несколькими поставщиками

Поддерживает три поставщика TTS (Edge, OpenAI, ElevenLabs) с автоматическим переключением при сбое.

Следуйте за мной

Шаг 1: Настройка базового TTS

Редактировать ~/.clawdbot/clawdbot.json:

yaml
messages:
  tts:
    auto: "always"
    provider: "edge"
    edge:
      enabled: true
      voice: "zh-CN-XiaoxiaoNeural"
      lang: "zh-CN"
      outputFormat: "audio-24khz-48kbitrate-mono-mp3"
bash
clawdbot gateway restart

Шаг 2: Настройка ElevenLabs TTS

Сгенерировать API ключ в консоли ElevenLabs.

Переменные среды:

bash
export ELEVENLABS_API_KEY="xi_..."

Или файл конфигурации:

yaml
messages:
  tts:
    provider: "elevenlabs"
    elevenlabs:
      voiceId: "pMsXgVXv3BLzUgSXRplE"
      modelId: "eleven_multilingual_v2"

Шаг 3: Настройка OpenAI TTS как резервного

yaml
messages:
  tts:
    provider: "elevenlabs"
    openai:
      model: "gpt-4o-mini-tts"
      voice: "alloy"

Шаг 4: Настройка слов пробуждения Voice Wake

В приложении macOS перейдите в Settings → Voice Wake для редактирования слов пробуждения.

Или используя RPC:

bash
clawdbot gateway rpc voicewake.set '{"triggers":["助手","小助"]}'

Шаг 5: Использование Talk Mode (iOS/Android)

Нажмите кнопку Talk в приложении iOS/Android для активации.

Точка проверки ✅

  • [ ] Базовая настройка TTS завершена
  • [ ] Голосовой ответ ИИ получен хотя бы на одном канале
  • [ ] Слова пробуждения Voice Wake персонализированы
  • [ ] Talk Mode iOS/Android может начать и поддерживать разговор
  • [ ] Функция прерывания TTS работает правильно
  • [ ] Может изменить поставщика с помощью команды /tts
  • [ ] Нет ошибок TTS в журналах Gateway

Резюме

  • Голосовые функции Clawdbot состоят из трёх модулей: Voice Wake, Talk Mode, TTS
  • TTS поддерживает три поставщика: Edge (бесплатный), OpenAI (стабильный), ElevenLabs (высокое качество)
  • Voice Wake использует глобальную настройку слов пробуждения
  • Talk Mode поддерживает только iOS/Android
  • Формат вывода TTS определяется каналом
  • Рекомендуемая конфигурация: ElevenLabs основной, OpenAI резервный, Edge TTS для emergencies

Следующий урок

В следующем уроке мы изучим Система памяти и векторный поиск.


Приложение: Ссылки на исходный код

Нажмите, чтобы показать местоположения исходного кода

Обновлено: 2026-01-27

ФункцияПуть к файлуНомер строки
Основная логика TTSsrc/tts/tts.ts1-1472
ElevenLabs TTSsrc/tts/tts.ts916-991
OpenAI TTSsrc/tts/tts.ts993-1037
Edge TTSsrc/tts/tts.ts1050-1069
Управление конфигурацией Voice Wakesrc/infra/voicewake.ts1-91