В Telegram-канале @botkraft раз в месяц приходит вопрос: «можете сделать голосового бота?». Честный ответ: BotKraft специализируется на текстовых ботах, но тема растёт - GPT-4o с realtime voice, Yandex SpeechKit развивается, контакт-центры массово переходят на гибридные сценарии. Поэтому собрали обзор, чтобы было что отвечать. В статье - без претензии на инхаус-экспертность, только публичная фактура и расчёты с цифрами от платформ.
TL;DR: голосовой бот в 2026 за минуту
| Параметр | Значение |
|---|---|
| 3 поколения технологий | IVR с DTMF, классическая ASR+TTS+NLU, real-time GPT-4o voice |
| 5 платформ для РФ | Yandex SpeechKit, Tinkoff Voice, SaluteSpeech, VoxImplant, Twilio+OpenAI Realtime |
| Цена внедрения (РФ) | 200к-2млн ₽ за развёртывание |
| Ежемесячные расходы | 10-50к ₽ на телефонию + 5-30к ₽ на токены LLM |
| Окупаемость | 3-9 месяцев на контакт-центрах с 1000+ звонков в день |
| 152-ФЗ | SaluteSpeech и Yandex SpeechKit - compliant; OpenAI Realtime - нет |
| Когда voice лучше text | Контакт-центры, медицина (запись), пожилая ЦА, мобильные сценарии |
| Когда text лучше voice | Визуальный выбор, ссылки, документы, маркетинг, B2B-длинные диалоги |
3 поколения голосовых ботов
В отличие от текстовых, голосовые боты прошли несколько технологических революций за 15 лет, и сейчас на рынке параллельно живут все три поколения.
Поколение 1: IVR с тоновым набором (DTMF)
«Чтобы перейти к менеджеру, нажмите 1. Чтобы узнать баланс, нажмите 2». Технология 90-х, до сих пор работает в банках, поликлиниках, такси. Не понимает голос вообще, только нажатия кнопок на телефоне. Дёшево (от 5 000 ₽/мес за облачное решение), надёжно, отлично работает на нестабильной связи и для пожилой аудитории.
Минусы: невозможно спрашивать сложные вопросы, пользователь должен помнить меню, на третьем уровне меню теряется 60-80 процентов звонящих.
Поколение 2: классическая связка ASR + TTS + NLU
ASR (Automatic Speech Recognition) переводит голос в текст, NLU (Natural Language Understanding) понимает интент, TTS (Text-To-Speech) озвучивает ответ. До 2024 года - стандарт индустрии. Yandex SpeechKit, Tinkoff Voice, MTT - все на этой архитектуре.
Достоинства: понимает свободную речь, ответы естественные, работает с шумом и диалектами. Цена внедрения - от 200 тысяч рублей, ежемесячно - 0,3-0,8 рубля за минуту синтеза плюс распознавание.
Недостатки: latency 1-3 секунды (звонок «застывает» на каждой реплике), сложно поддерживать долгие контексты диалога, NLU-слой требует тренировки на ваших данных.
Поколение 3: real-time LLM с голосом
GPT-4o realtime API (декабрь 2024), Voxtral от Mistral (2025), Yandex SpeechKit Voice Streaming (2025) - модели работают в режиме «слышу и говорю одновременно», как человек. Latency 200-500 мс - неотличимо от живого собеседника. Понимают интонацию, перебивания, паузы.
Это разговорная революция, но: пока дорого ($0.06 за минуту OpenAI realtime, что около 6 рублей), серверная часть сложная (WebRTC, низкоуровневый аудио-стрим), русский язык хуже английского. Русские провайдеры (Yandex, SaluteSpeech) догоняют, но пока не на уровне OpenAI.
К концу 2026 ожидается, что real-time voice станет дефолтом для премиальных кейсов. Для массовых контакт-центров - пока классическая ASR+TTS+NLU.
5 платформ для голосовых ботов в России
Yandex SpeechKit - универсальная платформа от Яндекс.Облака. ASR на русском языке - один из лучших в индустрии (WER ~5% на чистой речи). Цена синтеза - $0.4 за миллион символов (около 30 копеек за минуту озвучки). Распознавание - $1.5 за час аудио. 152-ФЗ совместим. Есть готовые телефонные сценарии и SDK для основных языков. Подойдёт для большинства задач от IVR до сложного NLU.
Tinkoff Voice - заточен под контакт-центры. Особенность: качественное распознавание прерванной речи (когда клиент перебивает бота), что критично для активных продаж. Цена - индивидуальные тарифы, для среднего объёма - около 12-25 рублей за разговор. 152-ФЗ совместим, серверы в РФ.
SaluteSpeech (Сбер) - входит в экосистему GigaChat. Сильная сторона - интеграция с банковской инфраструктурой, обработка финансовых терминов. Минус - меньше публичной документации, сложнее на старте без партнёрской поддержки.
VoxImplant - международная платформа с серверами в РФ и Европе. Сильна в гибридных IVR-сценариях, есть готовые шаблоны для медицины, e-commerce, страхования. Цена - от $0.05 за минуту вызова. Стоит выбирать, если работаете на международные рынки тоже.
Twilio + OpenAI Realtime API - для глобальных проектов. Twilio даёт телефонный номер (от $1/мес плюс per-call), OpenAI Realtime - GPT-4o голосом. Не для российских клиентов: с РФ-карт оплачивать сложно, GPT-4o серверы в США. Но для международных стартапов - топ-стек.
| Платформа | Сильная сторона | 152-ФЗ | Цена за минуту |
|---|---|---|---|
| Yandex SpeechKit | Лучший ASR на русском | ✅ | ~0.5-1 ₽ |
| Tinkoff Voice | Контакт-центры, перебивания | ✅ | 12-25 ₽ за звонок |
| SaluteSpeech | Банковский домен | ✅ | договорные |
| VoxImplant | Готовые сценарии, гибрид | ✅ (RU-серверы) | от $0.05 |
| Twilio + OpenAI Realtime | Премиум-качество, EN | ❌ | $0.06 + телефония |
Сценарии где голосовой бот реально работает
Контакт-центры с фильтрацией звонков. Бот принимает звонок, спрашивает «вы по поводу заказа, доставки или жалобы?», маршрутизирует на нужного оператора, для типовых вопросов отвечает сам. Снижение нагрузки 30-50 процентов, снижение средней длины ожидания клиента в очереди. Окупаемость 3-6 месяцев на контакт-центрах от 500 звонков в день.
Назначение визитов в клиниках. Пациенты звонят, бот идентифицирует по номеру телефона (или имени и дате рождения), показывает свободные слоты к нужному врачу, записывает. Подтверждение SMS и за день - звонок-напоминание. Аналог SaaS-сервисов вроде «ЯКлинике», но интегрированный в внутренние процессы.
Холодные продажи (с осторожностью). Бот совершает исходящие звонки по списку лидов, представляется, делает оффер, либо записывает на встречу с менеджером, либо помечает как незаинтересованных. Юридически серая зона: с 2023 регулирование рекламных звонков ужесточилось, требуется явное согласие. Технически работает, но риски юридические.
IVR-маршрутизация в больших компаниях. Заменяет дерево из 5-7 уровней меню на свободный диалог: «Ваш менеджер - Иван Иванов, соединяю». Дорого внедрить (300к-1млн), но работает в банках, телекомах, госкомпаниях.
Подтверждение заказов и доставок. Курьер не приехал, ИИ-бот звонит - «доставку перенесли на завтра, удобно?». Снимает нагрузку с операторов на типовых уведомлениях. Работает в e-commerce, такси, доставке еды.
Сценарии где text-бот лучше голоса
Не вся бизнес-задача требует voice. Текст почти всегда дешевле, надёжнее и удобнее для клиента в этих случаях:
- Маркетинг и воронки прогрева - голос плохо передаёт ссылки, картинки, кнопки выбора
- B2B-консультации - длинные диалоги (20-30 минут) клиентам удобнее в текстовом канале (можно вернуться, перечитать)
- Документы и формы - копировать данные паспорта голосом - ад, в тексте секунда
- Молодёжная ЦА - люди до 35 лет всё чаще не любят телефонные звонки
- Поддержка через мессенджеры - 80% запросов сейчас приходит через Telegram, WhatsApp, VK
Если ваша задача укладывается в один из этих профилей - не тратьте бюджет на голос, делайте text-бота.
Цены на голосовые боты в России 2026
Внедрение голосового бота - дороже текстового в 5-10 раз из-за телефонной инфраструктуры, голосовых моделей, тестирования на акустике.
Простой IVR с автоответом (DTMF, до 5 уровней меню) - от 50 000 ₽ за разработку, 5-15к ₽/мес за облачную телефонию.
Классический бот ASR+TTS+NLU для контакт-центра - 200-500 тысяч ₽ за внедрение, 30-80к ₽/мес на оплату минут синтеза-распознавания плюс телефонии. Срок 1-2 месяца.
Бот с GPT-4o realtime (для премиум-кейсов) - 500к-2млн ₽ на интеграцию плюс 20-100к ₽/мес в зависимости от объёма звонков. Срок 2-4 месяца.
Поддержка после запуска - 15-50к ₽/мес: мониторинг качества распознавания, улучшение NLU на ошибках, обновление сценариев.
Не забывайте: телефония отдельно. Номер 8-800 - 3-10к ₽/мес плюс трафик. Городской номер - от 1.5к ₽/мес. Для исходящих - тарифы 1-3 рубля за минуту в зависимости от направления.
Реальные кейсы из публичных источников
Тинькофф (T-Bank). Голосовой ассистент Олег обрабатывает 30+ процентов звонков в банк без оператора. Снижение нагрузки оператора - 50 миллионов звонков в год, экономия - десятки миллионов рублей в месяц. Платформа собственная, на основе технологий Tinkoff Voice.
Яндекс.Алиса. Алиса для бизнеса - облачное решение, 8000+ компаний используют, 1.5 миллиона разговоров в месяц. Самые частые сценарии: запись на услугу, ответы на FAQ, сбор лидов. Цена для бизнеса - от 30к ₽/мес.
МТТ голосовой бот для МФО. Для микрофинансовой организации внедрили бота, обрабатывающего 70 процентов звонков по статусу заявки и графику платежей. Снижение нагрузки колл-центра на 40 процентов, окупаемость 4 месяца. Public case study на сайте МТТ.
ТТК для медицинской клиники. Голосовой бот для записи на приём, обрабатывает 500-700 звонков в день, средняя длина диалога 90 секунд. Конверсия из звонка в подтверждённую запись - 78 процентов (для сравнения - оператор делает 85, но в 5-10 раз дороже).
Окупаемость голосового бота: расчёт
Грубый расчёт. Контакт-центр на 1000 звонков в день, средняя длина диалога с оператором 4 минуты, оператор стоит 80 тысяч в месяц с налогами.
В месяц: 30 000 звонков × 4 минуты = 2000 часов = 12.5 операторских ставок (160 часов на ставку). Стоимость операторов: 12.5 × 80 000 = 1 миллион в месяц.
Бот за 500к внедрения с месячными расходами 50к плюс 20к телефония = 70к/мес обслуживание. Если бот закрывает 40 процентов звонков (типовая цифра), это эквивалент 5 операторов = 400к экономии в месяц.
Окупаемость: 500к / (400к - 70к) = 1.5 месяца.
С учётом пуско-наладки и обучения - 3-6 месяцев в реальности.
Это идеальный расчёт. На практике первые 2-3 месяца качество распознавания низкое, бот может «делать дороже» из-за неправильных ответов и потерянных лидов. План: тщательный мониторинг, итерационные улучшения NLU, готовность к 6-9 месяцам реальной окупаемости.
FAQ: голосовые боты для бизнеса
Чем голосовой бот отличается от автоответчика?
Автоответчик проигрывает заранее записанное сообщение. Голосовой бот - ведёт диалог: понимает что вы говорите, отвечает по сценарию, передаёт данные в CRM, может позвать оператора при сложном вопросе.
Можно ли использовать GPT-4o realtime в России?
Технически да через VPN или зарубежные карты. Юридически - спорно: данные ПД отправляются в США, что не соответствует 152-ФЗ для российских пользователей. Для частных pet-проектов - можно, для бизнеса - SaluteSpeech или Yandex SpeechKit.
Сколько стоит распознавание минуты речи?
Yandex SpeechKit: $1.5 за час = около 2.5 ₽ за минуту распознавания. Синтез: $0.4 за миллион символов = 0.5 ₽ за минуту озвучки. Tinkoff и Сбер - индивидуальные тарифы, обычно 1-3 ₽ за минуту полного диалога.
Какой WER (Word Error Rate) нормальный?
На чистой студийной записи - 3-5 процентов. В реальном телефонном звонке с шумом - 8-15 процентов. На мобильной связи в плохих условиях - 20-30 процентов. Если ваш бот ловит больше 25 процентов - что-то не так с моделью или акустикой.
Можно ли клонировать голос конкретного человека?
Технически да - все большие платформы (Yandex, OpenAI, ElevenLabs) умеют voice cloning. Юридически - только с письменного согласия этого человека. Без согласия - грубое нарушение прав, штрафы и иски. В США 11 апреля 2024 приняли первый прецедентный иск против AI-клона голоса.
Голосовой бот «оператор-1, оператор-2, …» - это уже устаревшая технология?
Это IVR с DTMF - первое поколение. Технически устарело, но для очень простых задач (банки, ЖКХ) ещё актуально. Если ваш кейс уложится в 3-5 пунктов меню - IVR будет дешевле и надёжнее.
Что выбрать для маленького бизнеса?
Если 50-200 звонков в месяц - голосовой бот не окупится, дешевле один оператор на полставки. Если 500+ звонков и больше половины «как мне записаться/где мой заказ» - есть смысл рассматривать Yandex SpeechKit или Tinkoff Voice с минимальным внедрением 200-300к.
Как клиенты воспринимают разговор с ботом?
По исследованиям TADviser 2025: 32 процента клиентов узнают, что говорят с ботом (по голосу или паттернам диалога). Из них 60 процентов раздражает, 40 процентов нейтрально. Совет: на старте диалога честно сообщать «здравствуйте, это голосовой ассистент компании X» - снижает раздражение в 2 раза.
Что дальше
Если у вас задача с голосом, BotKraft не возьмёт её к себе - мы сильны в текстовых ботах, нет смысла учиться год, чтобы делать средний voice-бот. Но мы соединим вас с проверенными командами, которые делают voice профессионально. Для контактов и обсуждения - Telegram или форма обратной связи.
Связанные материалы на сайте:
- Чат-бот для бизнеса 2026: что это, сколько стоит и как выбрать
- GigaChat или YandexGPT 2026: что выбрать для AI-блока
- AI в чат-ботах 2026: 7 паттернов в Salebot и n8n
- Автоматизация на n8n для бизнеса 2026
Полезные ссылки на платформы:
- Yandex SpeechKit - документация и тарифы
- Tinkoff Voice - для контакт-центров
- SaluteSpeech - от Сбера
- VoxImplant - международная платформа
- OpenAI Realtime API - GPT-4o voice