Голосовое пробуждение и текст в речь

Что вы сможете сделать после обучения

Настроить Voice Wake голосовое пробуждение, поддерживает узлы macOS/iOS/Android
Использовать Talk Mode для непрерывного голосового разговора (голосовой ввод → ИИ → голосовой вывод)
Настроить несколько поставщиков TTS (Edge, OpenAI, ElevenLabs) и автоматическое переключение при сбое
Персонализировать слова пробуждения, голоса TTS и параметры разговора
Решать общие проблемы голосовых функций (разрешения, форматы аудио, ошибки API)

Ваша текущая ситуация

Голосовое взаимодействие удобно, но настройка может быть запутанной:

Какого поставщика TTS следует использовать? Edge бесплатный, но качество среднее, ElevenLabs высокое качество, но платный
В чём разница между Voice Wake и Talk Mode? Когда использовать каждый?
Как настроить персонализированные слова пробуждения вместо стандартного "clawd"?
Как синхронизировать настройку голоса на разных устройствах (macOS, iOS, Android)?
Почему формат вывода TTS важен? Почему Telegram использует Opus, а другие каналы MP3?

Когда использовать эту функцию

Voice Wake: Когда вам нужен опыт голосового помощника без рук. Например, разбудить ИИ, говоря напрямую на macOS или iOS/Android без операций с клавиатурой.
Talk Mode: Когда вам нужен непрерывный голосовой разговор. Например, многоцикличный разговор с ИИ голосом во время вождения, готовки или ходьбы.
Настройка TTS: Когда вы хотите, чтобы ответы ИИ воспроизводились голосом. Например, голосовой помощник для пожилых или слабовидящих людей или личный опыт голосового помощника.
Персонализированный голос: Когда вы не удовлетворены стандартным голосом. Например, настроить скорость, высоту тона, стабильность или переключиться на китайские голосовые модели.

🎒 Подготовка перед началом

Предварительные требования

Этот учебник предполагает, что вы завершили Быстрый старт, установили и запустили Gateway. ::

Демон Gateway запущен
Настроен хотя бы один поставщик модели ИИ (Anthropic или OpenAI)
Для Voice Wake: Устройство macOS/iOS/Android установлено и подключено к Gateway
Для Talk Mode: Узел iOS или Android подключен (приложение панели меню macOS поддерживает только Voice Wake)
Для ElevenLabs TTS: API ключ ElevenLabs подготовлен (если вам нужен высококачественный голос)
Для OpenAI TTS: API ключ OpenAI подготовлен (опционально, Edge TTS бесплатный, но качество среднее)

Уведомление о разрешениях

Voice Wake и Talk Mode требуют следующие разрешения:

Разрешение на микрофон: Необходимо для голосового ввода
Разрешение на распознавание речи (Speech Recognition): Речь в текст
Разрешение на специальные возможности (macOS): Мониторинг глобальных горячих клавиш (например, Cmd+Fn push-to-talk) ::

Ключевые концепции

Clawdbot имеет три модуля голосовых функций, которые работают вместе: Voice Wake (пробуждение), Talk Mode (непрерывный разговор), TTS (текст в речь).

Voice Wake: Глобальная система слов пробуждения

Слова пробуждения являются глобальной настройкой Gateway.

Talk Mode: Цикл голосового разговора

Непрерывный цикл голосового разговора с переходами состояний Listening → Thinking → Speaking.

TTS: Автоматическое переключение при сбое между несколькими поставщиками

Поддерживает три поставщика TTS (Edge, OpenAI, ElevenLabs) с автоматическим переключением при сбое.

Следуйте за мной

Шаг 1: Настройка базового TTS

Редактировать ~/.clawdbot/clawdbot.json:

yaml

messages:
  tts:
    auto: "always"
    provider: "edge"
    edge:
      enabled: true
      voice: "zh-CN-XiaoxiaoNeural"
      lang: "zh-CN"
      outputFormat: "audio-24khz-48kbitrate-mono-mp3"

bash

clawdbot gateway restart

Шаг 2: Настройка ElevenLabs TTS

Сгенерировать API ключ в консоли ElevenLabs.

Переменные среды:

bash

export ELEVENLABS_API_KEY="xi_..."

Или файл конфигурации:

yaml

messages:
  tts:
    provider: "elevenlabs"
    elevenlabs:
      voiceId: "pMsXgVXv3BLzUgSXRplE"
      modelId: "eleven_multilingual_v2"

Шаг 3: Настройка OpenAI TTS как резервного

yaml

messages:
  tts:
    provider: "elevenlabs"
    openai:
      model: "gpt-4o-mini-tts"
      voice: "alloy"

Шаг 4: Настройка слов пробуждения Voice Wake

В приложении macOS перейдите в Settings → Voice Wake для редактирования слов пробуждения.

Или используя RPC:

bash

clawdbot gateway rpc voicewake.set '{"triggers":["助手","小助"]}'

Шаг 5: Использование Talk Mode (iOS/Android)

Нажмите кнопку Talk в приложении iOS/Android для активации.

Точка проверки ✅

[ ] Базовая настройка TTS завершена
[ ] Голосовой ответ ИИ получен хотя бы на одном канале
[ ] Слова пробуждения Voice Wake персонализированы
[ ] Talk Mode iOS/Android может начать и поддерживать разговор
[ ] Функция прерывания TTS работает правильно
[ ] Может изменить поставщика с помощью команды /tts
[ ] Нет ошибок TTS в журналах Gateway

Резюме

Голосовые функции Clawdbot состоят из трёх модулей: Voice Wake, Talk Mode, TTS
TTS поддерживает три поставщика: Edge (бесплатный), OpenAI (стабильный), ElevenLabs (высокое качество)
Voice Wake использует глобальную настройку слов пробуждения
Talk Mode поддерживает только iOS/Android
Формат вывода TTS определяется каналом
Рекомендуемая конфигурация: ElevenLabs основной, OpenAI резервный, Edge TTS для emergencies

Следующий урок

В следующем уроке мы изучим Система памяти и векторный поиск.

Приложение: Ссылки на исходный код

Нажмите, чтобы показать местоположения исходного кода

Обновлено: 2026-01-27

Функция	Путь к файлу	Номер строки
Основная логика TTS	`src/tts/tts.ts`	1-1472
ElevenLabs TTS	`src/tts/tts.ts`	916-991
OpenAI TTS	`src/tts/tts.ts`	993-1037
Edge TTS	`src/tts/tts.ts`	1050-1069
Управление конфигурацией Voice Wake	`src/infra/voicewake.ts`	1-91

Начало работы с нуля

Интеграция с популярными мессенджерами

Разблокируйте сверхспособности AI

Что делать при возникновении проблем

Голосовое пробуждение и текст в речь

Что вы сможете сделать после обучения

Ваша текущая ситуация

Когда использовать эту функцию

🎒 Подготовка перед началом

Ключевые концепции

Voice Wake: Глобальная система слов пробуждения

Talk Mode: Цикл голосового разговора

TTS: Автоматическое переключение при сбое между несколькими поставщиками

Следуйте за мной

Шаг 1: Настройка базового TTS

Шаг 2: Настройка ElevenLabs TTS

Шаг 3: Настройка OpenAI TTS как резервного

Шаг 4: Настройка слов пробуждения Voice Wake

Шаг 5: Использование Talk Mode (iOS/Android)

Точка проверки ✅

Резюме

Следующий урок

Приложение: Ссылки на исходный код

Голосовое пробуждение и текст в речь ​

Что вы сможете сделать после обучения ​

Ваша текущая ситуация ​

Когда использовать эту функцию ​

🎒 Подготовка перед началом ​

Ключевые концепции ​

Voice Wake: Глобальная система слов пробуждения ​

Talk Mode: Цикл голосового разговора ​

TTS: Автоматическое переключение при сбое между несколькими поставщиками ​

Следуйте за мной ​

Шаг 1: Настройка базового TTS ​

Шаг 2: Настройка ElevenLabs TTS ​

Шаг 3: Настройка OpenAI TTS как резервного ​

Шаг 4: Настройка слов пробуждения Voice Wake ​

Шаг 5: Использование Talk Mode (iOS/Android) ​

Точка проверки ✅ ​

Резюме ​

Следующий урок ​

Приложение: Ссылки на исходный код ​

Голосовое пробуждение и текст в речь

Что вы сможете сделать после обучения

Ваша текущая ситуация

Когда использовать эту функцию

🎒 Подготовка перед началом

Ключевые концепции

Voice Wake: Глобальная система слов пробуждения

Talk Mode: Цикл голосового разговора

TTS: Автоматическое переключение при сбое между несколькими поставщиками

Следуйте за мной

Шаг 1: Настройка базового TTS

Шаг 2: Настройка ElevenLabs TTS

Шаг 3: Настройка OpenAI TTS как резервного

Шаг 4: Настройка слов пробуждения Voice Wake

Шаг 5: Использование Talk Mode (iOS/Android)

Точка проверки ✅

Резюме

Следующий урок

Приложение: Ссылки на исходный код