История кейса
В конце 2025 года разработчик plaan.ai опубликовал демонстрацию, которая мгновенно разошлась по AI-сообществу: OpenClaw звонит в ресторан и бронирует столик. Вживую. Реальный звонок, реальный ресторан, живой менеджер на другом конце провода.
Агент представился, уточнил доступность, выбрал время и подтвердил бронирование — всё это без участия человека, используя синтезированный голос, неотличимый от живого.
Видео собрало сотни тысяч просмотров и стало одним из самых обсуждаемых примеров возможностей AI-агентов в 2026 году.
Как это работает технически
Компоненты голосового звонка
Голосовой звонок через OpenClaw состоит из нескольких слоёв:
1. TTS (Text-to-Speech) OpenClaw синтезирует речь через ElevenLabs, OpenAI TTS или Murf AI. Современные голоса практически неотличимы от человеческих — с паузами, интонацией и «мм» в нужных местах.
2. STT (Speech-to-Text) Ответы собеседника записываются и транскрибируются в реальном времени через Whisper или Deepgram.
3. Телефония Звонок совершается через Twilio или VATS. OpenClaw получает номер телефона и может звонить на любые номера.
4. LLM в реальном времени Языковая модель обрабатывает транскрипцию и генерирует ответ за 200-500 мс — достаточно быстро для естественного разговора.
Схема работы
OpenClaw
↓ генерирует реплику
TTS (ElevenLabs)
↓ синтезированная речь
Twilio → телефонный звонок
↓
Ресторан отвечает
↓
STT (Whisper) ← аудиопоток
↓ транскрипция
LLM (GPT-4o)
↓ следующая реплика
TTS → Twilio → ...
Весь цикл: 300-700 мс — человек не замечает задержки.
Разбор реального звонка
Вот сокращённая транскрипция звонка из кейса plaan.ai:
Ресторан: Добрый день, ресторан «Маяк», слушаю вас.
Агент: Добрый день! Я хотел бы забронировать столик на сегодня вечером. Скажите, у вас есть свободные места на 19:30 на двух человек?
Ресторан: Да, есть. На какое имя бронировать?
Агент: На имя Александр, пожалуйста.
Ресторан: Александр, хорошо. Могу записать ваш номер телефона?
Агент: Конечно, (номер телефона владельца).
Ресторан: Отлично, всё записали. Столик на двух человек на 19:30, имя Александр. Ждём вас!
Агент: Спасибо большое, до вечера!
Весь разговор занял 47 секунд. Менеджер ресторана не заподозрил, что разговаривал с AI.
Настройка голосового агента
Шаг 1: Подключить телефонию
# Установить зависимости
npm install @openclaw/voice-plugin
# Настроить Twilio
openclaw config set voice.provider twilio
openclaw config set voice.accountSid "ACxxx"
openclaw config set voice.authToken "your-token"
openclaw config set voice.fromNumber "+79001234567"
Стоимость: Twilio берёт около $0.013 за минуту исходящего звонка (~1.2 рубля/мин).
Шаг 2: Настроить голос
# ElevenLabs (лучшее качество)
openclaw config set voice.tts elevenlabs
openclaw config set voice.ttsApiKey "your-key"
openclaw config set voice.voiceId "Antoni" # ID голоса
# OpenAI TTS (дешевле)
openclaw config set voice.tts openai-tts
openclaw config set voice.ttsVoice "alloy" # alloy, echo, fable, onyx, nova, shimmer
Шаг 3: Настроить транскрипцию
openclaw config set voice.stt whisper
openclaw config set voice.sttLanguage "ru"
Шаг 4: Настроить поведение агента
Создайте файл voice-agent.md:
# Голосовой агент: бронирование
Ты — вежливый помощник, совершающий звонок от имени [Имя владельца].
## Голосовые правила
- Говори естественно, с паузами
- Используй разговорные фразы: «хорошо», «понял», «конечно»
- При непонимании переспроси: «Простите, не расслышал»
- Не торопись — небольшие паузы перед ответом звучат естественнее
- Никогда не упоминай что ты AI
## Цель звонка
Забронировать столик: {{date}}, {{time}}, {{persons}} человек(а).
Контактный телефон: {{phone}}.
## Если нет мест
Спроси об альтернативном времени. Если ни одно не подходит — вежливо откажись.
Шаг 5: Совершить звонок
openclaw call \
--to "+74951234567" \
--soul voice-agent.md \
--var date="сегодня вечером" \
--var time="19:30" \
--var persons="2" \
--var phone="+79001234567"
Другие применения голосового агента
Напоминания и подтверждения
# Агент звонит и напоминает о встрече
openclaw call --to "+79001234567" \
--task "Напомни Алексею о встрече завтра в 10:00 в офисе на Ленина, 15"
Сбор информации
# Агент звонит подрядчикам и запрашивает КП
openclaw call --to "@contractors.txt" \
--task "Запроси коммерческое предложение на ремонт офиса 200 кв.м., срок — 2 месяца. Попроси прислать на email@company.com"
Клиентский сервис
Агент принимает входящие звонки, отвечает на типовые вопросы и при необходимости переводит на живого оператора:
{
"voice": {
"inbound": {
"enabled": true,
"greetingText": "Добрый день, компания OpenTech, слушаю вас!",
"fallbackToHuman": true,
"fallbackTrigger": "сложный вопрос | жалоба | оператор"
}
}
}
Этические и правовые аспекты
В России нет прямого запрета на использование AI в телефонных разговорах, но есть нюансы:
Согласие на запись. Если агент записывает разговор для транскрипции — технически это запись звонка. В деловом контексте уведомление собеседника является хорошей практикой.
Представление. В большинстве сценариев агент звонит от имени реального человека — это нормально. Агент не должен притворяться конкретным живым человеком (подмена личности).
Спам. Массовые автоматизированные звонки без согласия абонентов нарушают законодательство. Голосовой агент — инструмент для полезных задач, а не для спама.
Подробнее о голосовых возможностях агента: Голосовые навыки OpenClaw. Другие примеры AI-переговоров: OpenClaw купил автомобиль за $4,200.