Голосовое пробуждение и текст в речь
Что вы сможете сделать после обучения
- Настроить Voice Wake голосовое пробуждение, поддерживает узлы macOS/iOS/Android
- Использовать Talk Mode для непрерывного голосового разговора (голосовой ввод → ИИ → голосовой вывод)
- Настроить несколько поставщиков TTS (Edge, OpenAI, ElevenLabs) и автоматическое переключение при сбое
- Персонализировать слова пробуждения, голоса TTS и параметры разговора
- Решать общие проблемы голосовых функций (разрешения, форматы аудио, ошибки API)
Ваша текущая ситуация
Голосовое взаимодействие удобно, но настройка может быть запутанной:
- Какого поставщика TTS следует использовать? Edge бесплатный, но качество среднее, ElevenLabs высокое качество, но платный
- В чём разница между Voice Wake и Talk Mode? Когда использовать каждый?
- Как настроить персонализированные слова пробуждения вместо стандартного "clawd"?
- Как синхронизировать настройку голоса на разных устройствах (macOS, iOS, Android)?
- Почему формат вывода TTS важен? Почему Telegram использует Opus, а другие каналы MP3?
Когда использовать эту функцию
- Voice Wake: Когда вам нужен опыт голосового помощника без рук. Например, разбудить ИИ, говоря напрямую на macOS или iOS/Android без операций с клавиатурой.
- Talk Mode: Когда вам нужен непрерывный голосовой разговор. Например, многоцикличный разговор с ИИ голосом во время вождения, готовки или ходьбы.
- Настройка TTS: Когда вы хотите, чтобы ответы ИИ воспроизводились голосом. Например, голосовой помощник для пожилых или слабовидящих людей или личный опыт голосового помощника.
- Персонализированный голос: Когда вы не удовлетворены стандартным голосом. Например, настроить скорость, высоту тона, стабильность или переключиться на китайские голосовые модели.
🎒 Подготовка перед началом
Предварительные требования
Этот учебник предполагает, что вы завершили Быстрый старт, установили и запустили Gateway. ::
- Демон Gateway запущен
- Настроен хотя бы один поставщик модели ИИ (Anthropic или OpenAI)
- Для Voice Wake: Устройство macOS/iOS/Android установлено и подключено к Gateway
- Для Talk Mode: Узел iOS или Android подключен (приложение панели меню macOS поддерживает только Voice Wake)
- Для ElevenLabs TTS: API ключ ElevenLabs подготовлен (если вам нужен высококачественный голос)
- Для OpenAI TTS: API ключ OpenAI подготовлен (опционально, Edge TTS бесплатный, но качество среднее)
Уведомление о разрешениях
Voice Wake и Talk Mode требуют следующие разрешения:
- Разрешение на микрофон: Необходимо для голосового ввода
- Разрешение на распознавание речи (Speech Recognition): Речь в текст
- Разрешение на специальные возможности (macOS): Мониторинг глобальных горячих клавиш (например, Cmd+Fn push-to-talk) ::
Ключевые концепции
Clawdbot имеет три модуля голосовых функций, которые работают вместе: Voice Wake (пробуждение), Talk Mode (непрерывный разговор), TTS (текст в речь).
Voice Wake: Глобальная система слов пробуждения
Слова пробуждения являются глобальной настройкой Gateway.
Talk Mode: Цикл голосового разговора
Непрерывный цикл голосового разговора с переходами состояний Listening → Thinking → Speaking.
TTS: Автоматическое переключение при сбое между несколькими поставщиками
Поддерживает три поставщика TTS (Edge, OpenAI, ElevenLabs) с автоматическим переключением при сбое.
Следуйте за мной
Шаг 1: Настройка базового TTS
Редактировать ~/.clawdbot/clawdbot.json:
messages:
tts:
auto: "always"
provider: "edge"
edge:
enabled: true
voice: "zh-CN-XiaoxiaoNeural"
lang: "zh-CN"
outputFormat: "audio-24khz-48kbitrate-mono-mp3"clawdbot gateway restartШаг 2: Настройка ElevenLabs TTS
Сгенерировать API ключ в консоли ElevenLabs.
Переменные среды:
export ELEVENLABS_API_KEY="xi_..."Или файл конфигурации:
messages:
tts:
provider: "elevenlabs"
elevenlabs:
voiceId: "pMsXgVXv3BLzUgSXRplE"
modelId: "eleven_multilingual_v2"Шаг 3: Настройка OpenAI TTS как резервного
messages:
tts:
provider: "elevenlabs"
openai:
model: "gpt-4o-mini-tts"
voice: "alloy"Шаг 4: Настройка слов пробуждения Voice Wake
В приложении macOS перейдите в Settings → Voice Wake для редактирования слов пробуждения.
Или используя RPC:
clawdbot gateway rpc voicewake.set '{"triggers":["助手","小助"]}'Шаг 5: Использование Talk Mode (iOS/Android)
Нажмите кнопку Talk в приложении iOS/Android для активации.
Точка проверки ✅
- [ ] Базовая настройка TTS завершена
- [ ] Голосовой ответ ИИ получен хотя бы на одном канале
- [ ] Слова пробуждения Voice Wake персонализированы
- [ ] Talk Mode iOS/Android может начать и поддерживать разговор
- [ ] Функция прерывания TTS работает правильно
- [ ] Может изменить поставщика с помощью команды
/tts - [ ] Нет ошибок TTS в журналах Gateway
Резюме
- Голосовые функции Clawdbot состоят из трёх модулей: Voice Wake, Talk Mode, TTS
- TTS поддерживает три поставщика: Edge (бесплатный), OpenAI (стабильный), ElevenLabs (высокое качество)
- Voice Wake использует глобальную настройку слов пробуждения
- Talk Mode поддерживает только iOS/Android
- Формат вывода TTS определяется каналом
- Рекомендуемая конфигурация: ElevenLabs основной, OpenAI резервный, Edge TTS для emergencies
Следующий урок
В следующем уроке мы изучим Система памяти и векторный поиск.
Приложение: Ссылки на исходный код
Нажмите, чтобы показать местоположения исходного кода
Обновлено: 2026-01-27
| Функция | Путь к файлу | Номер строки |
|---|---|---|
| Основная логика TTS | src/tts/tts.ts | 1-1472 |
| ElevenLabs TTS | src/tts/tts.ts | 916-991 |
| OpenAI TTS | src/tts/tts.ts | 993-1037 |
| Edge TTS | src/tts/tts.ts | 1050-1069 |
| Управление конфигурацией Voice Wake | src/infra/voicewake.ts | 1-91 |