В Telegram-канале @botkraft раз в месяц приходит вопрос: «можете сделать голосового бота?». Честный ответ: BotKraft специализируется на текстовых ботах, но тема растёт - GPT-4o с realtime voice, Yandex SpeechKit развивается, контакт-центры массово переходят на гибридные сценарии. Поэтому собрали обзор, чтобы было что отвечать. В статье - без претензии на инхаус-экспертность, только публичная фактура и расчёты с цифрами от платформ.

TL;DR: голосовой бот в 2026 за минуту

ПараметрЗначение
3 поколения технологийIVR с DTMF, классическая ASR+TTS+NLU, real-time GPT-4o voice
5 платформ для РФYandex SpeechKit, Tinkoff Voice, SaluteSpeech, VoxImplant, Twilio+OpenAI Realtime
Цена внедрения (РФ)200к-2млн ₽ за развёртывание
Ежемесячные расходы10-50к ₽ на телефонию + 5-30к ₽ на токены LLM
Окупаемость3-9 месяцев на контакт-центрах с 1000+ звонков в день
152-ФЗSaluteSpeech и Yandex SpeechKit - compliant; OpenAI Realtime - нет
Когда voice лучше textКонтакт-центры, медицина (запись), пожилая ЦА, мобильные сценарии
Когда text лучше voiceВизуальный выбор, ссылки, документы, маркетинг, B2B-длинные диалоги

3 поколения голосовых ботов

В отличие от текстовых, голосовые боты прошли несколько технологических революций за 15 лет, и сейчас на рынке параллельно живут все три поколения.

Поколение 1: IVR с тоновым набором (DTMF)

«Чтобы перейти к менеджеру, нажмите 1. Чтобы узнать баланс, нажмите 2». Технология 90-х, до сих пор работает в банках, поликлиниках, такси. Не понимает голос вообще, только нажатия кнопок на телефоне. Дёшево (от 5 000 ₽/мес за облачное решение), надёжно, отлично работает на нестабильной связи и для пожилой аудитории.

Минусы: невозможно спрашивать сложные вопросы, пользователь должен помнить меню, на третьем уровне меню теряется 60-80 процентов звонящих.

Поколение 2: классическая связка ASR + TTS + NLU

ASR (Automatic Speech Recognition) переводит голос в текст, NLU (Natural Language Understanding) понимает интент, TTS (Text-To-Speech) озвучивает ответ. До 2024 года - стандарт индустрии. Yandex SpeechKit, Tinkoff Voice, MTT - все на этой архитектуре.

Достоинства: понимает свободную речь, ответы естественные, работает с шумом и диалектами. Цена внедрения - от 200 тысяч рублей, ежемесячно - 0,3-0,8 рубля за минуту синтеза плюс распознавание.

Недостатки: latency 1-3 секунды (звонок «застывает» на каждой реплике), сложно поддерживать долгие контексты диалога, NLU-слой требует тренировки на ваших данных.

Поколение 3: real-time LLM с голосом

GPT-4o realtime API (декабрь 2024), Voxtral от Mistral (2025), Yandex SpeechKit Voice Streaming (2025) - модели работают в режиме «слышу и говорю одновременно», как человек. Latency 200-500 мс - неотличимо от живого собеседника. Понимают интонацию, перебивания, паузы.

Это разговорная революция, но: пока дорого ($0.06 за минуту OpenAI realtime, что около 6 рублей), серверная часть сложная (WebRTC, низкоуровневый аудио-стрим), русский язык хуже английского. Русские провайдеры (Yandex, SaluteSpeech) догоняют, но пока не на уровне OpenAI.

К концу 2026 ожидается, что real-time voice станет дефолтом для премиальных кейсов. Для массовых контакт-центров - пока классическая ASR+TTS+NLU.

5 платформ для голосовых ботов в России

Yandex SpeechKit - универсальная платформа от Яндекс.Облака. ASR на русском языке - один из лучших в индустрии (WER ~5% на чистой речи). Цена синтеза - $0.4 за миллион символов (около 30 копеек за минуту озвучки). Распознавание - $1.5 за час аудио. 152-ФЗ совместим. Есть готовые телефонные сценарии и SDK для основных языков. Подойдёт для большинства задач от IVR до сложного NLU.

Tinkoff Voice - заточен под контакт-центры. Особенность: качественное распознавание прерванной речи (когда клиент перебивает бота), что критично для активных продаж. Цена - индивидуальные тарифы, для среднего объёма - около 12-25 рублей за разговор. 152-ФЗ совместим, серверы в РФ.

SaluteSpeech (Сбер) - входит в экосистему GigaChat. Сильная сторона - интеграция с банковской инфраструктурой, обработка финансовых терминов. Минус - меньше публичной документации, сложнее на старте без партнёрской поддержки.

VoxImplant - международная платформа с серверами в РФ и Европе. Сильна в гибридных IVR-сценариях, есть готовые шаблоны для медицины, e-commerce, страхования. Цена - от $0.05 за минуту вызова. Стоит выбирать, если работаете на международные рынки тоже.

Twilio + OpenAI Realtime API - для глобальных проектов. Twilio даёт телефонный номер (от $1/мес плюс per-call), OpenAI Realtime - GPT-4o голосом. Не для российских клиентов: с РФ-карт оплачивать сложно, GPT-4o серверы в США. Но для международных стартапов - топ-стек.

ПлатформаСильная сторона152-ФЗЦена за минуту
Yandex SpeechKitЛучший ASR на русском~0.5-1 ₽
Tinkoff VoiceКонтакт-центры, перебивания12-25 ₽ за звонок
SaluteSpeechБанковский домендоговорные
VoxImplantГотовые сценарии, гибрид✅ (RU-серверы)от $0.05
Twilio + OpenAI RealtimeПремиум-качество, EN$0.06 + телефония

Сценарии где голосовой бот реально работает

Контакт-центры с фильтрацией звонков. Бот принимает звонок, спрашивает «вы по поводу заказа, доставки или жалобы?», маршрутизирует на нужного оператора, для типовых вопросов отвечает сам. Снижение нагрузки 30-50 процентов, снижение средней длины ожидания клиента в очереди. Окупаемость 3-6 месяцев на контакт-центрах от 500 звонков в день.

Назначение визитов в клиниках. Пациенты звонят, бот идентифицирует по номеру телефона (или имени и дате рождения), показывает свободные слоты к нужному врачу, записывает. Подтверждение SMS и за день - звонок-напоминание. Аналог SaaS-сервисов вроде «ЯКлинике», но интегрированный в внутренние процессы.

Холодные продажи (с осторожностью). Бот совершает исходящие звонки по списку лидов, представляется, делает оффер, либо записывает на встречу с менеджером, либо помечает как незаинтересованных. Юридически серая зона: с 2023 регулирование рекламных звонков ужесточилось, требуется явное согласие. Технически работает, но риски юридические.

IVR-маршрутизация в больших компаниях. Заменяет дерево из 5-7 уровней меню на свободный диалог: «Ваш менеджер - Иван Иванов, соединяю». Дорого внедрить (300к-1млн), но работает в банках, телекомах, госкомпаниях.

Подтверждение заказов и доставок. Курьер не приехал, ИИ-бот звонит - «доставку перенесли на завтра, удобно?». Снимает нагрузку с операторов на типовых уведомлениях. Работает в e-commerce, такси, доставке еды.

Сценарии где text-бот лучше голоса

Не вся бизнес-задача требует voice. Текст почти всегда дешевле, надёжнее и удобнее для клиента в этих случаях:

  • Маркетинг и воронки прогрева - голос плохо передаёт ссылки, картинки, кнопки выбора
  • B2B-консультации - длинные диалоги (20-30 минут) клиентам удобнее в текстовом канале (можно вернуться, перечитать)
  • Документы и формы - копировать данные паспорта голосом - ад, в тексте секунда
  • Молодёжная ЦА - люди до 35 лет всё чаще не любят телефонные звонки
  • Поддержка через мессенджеры - 80% запросов сейчас приходит через Telegram, WhatsApp, VK

Если ваша задача укладывается в один из этих профилей - не тратьте бюджет на голос, делайте text-бота.

Цены на голосовые боты в России 2026

Внедрение голосового бота - дороже текстового в 5-10 раз из-за телефонной инфраструктуры, голосовых моделей, тестирования на акустике.

Простой IVR с автоответом (DTMF, до 5 уровней меню) - от 50 000 ₽ за разработку, 5-15к ₽/мес за облачную телефонию.

Классический бот ASR+TTS+NLU для контакт-центра - 200-500 тысяч ₽ за внедрение, 30-80к ₽/мес на оплату минут синтеза-распознавания плюс телефонии. Срок 1-2 месяца.

Бот с GPT-4o realtime (для премиум-кейсов) - 500к-2млн ₽ на интеграцию плюс 20-100к ₽/мес в зависимости от объёма звонков. Срок 2-4 месяца.

Поддержка после запуска - 15-50к ₽/мес: мониторинг качества распознавания, улучшение NLU на ошибках, обновление сценариев.

Не забывайте: телефония отдельно. Номер 8-800 - 3-10к ₽/мес плюс трафик. Городской номер - от 1.5к ₽/мес. Для исходящих - тарифы 1-3 рубля за минуту в зависимости от направления.

Реальные кейсы из публичных источников

Тинькофф (T-Bank). Голосовой ассистент Олег обрабатывает 30+ процентов звонков в банк без оператора. Снижение нагрузки оператора - 50 миллионов звонков в год, экономия - десятки миллионов рублей в месяц. Платформа собственная, на основе технологий Tinkoff Voice.

Яндекс.Алиса. Алиса для бизнеса - облачное решение, 8000+ компаний используют, 1.5 миллиона разговоров в месяц. Самые частые сценарии: запись на услугу, ответы на FAQ, сбор лидов. Цена для бизнеса - от 30к ₽/мес.

МТТ голосовой бот для МФО. Для микрофинансовой организации внедрили бота, обрабатывающего 70 процентов звонков по статусу заявки и графику платежей. Снижение нагрузки колл-центра на 40 процентов, окупаемость 4 месяца. Public case study на сайте МТТ.

ТТК для медицинской клиники. Голосовой бот для записи на приём, обрабатывает 500-700 звонков в день, средняя длина диалога 90 секунд. Конверсия из звонка в подтверждённую запись - 78 процентов (для сравнения - оператор делает 85, но в 5-10 раз дороже).

Окупаемость голосового бота: расчёт

Грубый расчёт. Контакт-центр на 1000 звонков в день, средняя длина диалога с оператором 4 минуты, оператор стоит 80 тысяч в месяц с налогами.

В месяц: 30 000 звонков × 4 минуты = 2000 часов = 12.5 операторских ставок (160 часов на ставку). Стоимость операторов: 12.5 × 80 000 = 1 миллион в месяц.

Бот за 500к внедрения с месячными расходами 50к плюс 20к телефония = 70к/мес обслуживание. Если бот закрывает 40 процентов звонков (типовая цифра), это эквивалент 5 операторов = 400к экономии в месяц.

Окупаемость: 500к / (400к - 70к) = 1.5 месяца.

С учётом пуско-наладки и обучения - 3-6 месяцев в реальности.

Это идеальный расчёт. На практике первые 2-3 месяца качество распознавания низкое, бот может «делать дороже» из-за неправильных ответов и потерянных лидов. План: тщательный мониторинг, итерационные улучшения NLU, готовность к 6-9 месяцам реальной окупаемости.

FAQ: голосовые боты для бизнеса

Чем голосовой бот отличается от автоответчика?

Автоответчик проигрывает заранее записанное сообщение. Голосовой бот - ведёт диалог: понимает что вы говорите, отвечает по сценарию, передаёт данные в CRM, может позвать оператора при сложном вопросе.

Можно ли использовать GPT-4o realtime в России?

Технически да через VPN или зарубежные карты. Юридически - спорно: данные ПД отправляются в США, что не соответствует 152-ФЗ для российских пользователей. Для частных pet-проектов - можно, для бизнеса - SaluteSpeech или Yandex SpeechKit.

Сколько стоит распознавание минуты речи?

Yandex SpeechKit: $1.5 за час = около 2.5 ₽ за минуту распознавания. Синтез: $0.4 за миллион символов = 0.5 ₽ за минуту озвучки. Tinkoff и Сбер - индивидуальные тарифы, обычно 1-3 ₽ за минуту полного диалога.

Какой WER (Word Error Rate) нормальный?

На чистой студийной записи - 3-5 процентов. В реальном телефонном звонке с шумом - 8-15 процентов. На мобильной связи в плохих условиях - 20-30 процентов. Если ваш бот ловит больше 25 процентов - что-то не так с моделью или акустикой.

Можно ли клонировать голос конкретного человека?

Технически да - все большие платформы (Yandex, OpenAI, ElevenLabs) умеют voice cloning. Юридически - только с письменного согласия этого человека. Без согласия - грубое нарушение прав, штрафы и иски. В США 11 апреля 2024 приняли первый прецедентный иск против AI-клона голоса.

Голосовой бот «оператор-1, оператор-2, …» - это уже устаревшая технология?

Это IVR с DTMF - первое поколение. Технически устарело, но для очень простых задач (банки, ЖКХ) ещё актуально. Если ваш кейс уложится в 3-5 пунктов меню - IVR будет дешевле и надёжнее.

Что выбрать для маленького бизнеса?

Если 50-200 звонков в месяц - голосовой бот не окупится, дешевле один оператор на полставки. Если 500+ звонков и больше половины «как мне записаться/где мой заказ» - есть смысл рассматривать Yandex SpeechKit или Tinkoff Voice с минимальным внедрением 200-300к.

Как клиенты воспринимают разговор с ботом?

По исследованиям TADviser 2025: 32 процента клиентов узнают, что говорят с ботом (по голосу или паттернам диалога). Из них 60 процентов раздражает, 40 процентов нейтрально. Совет: на старте диалога честно сообщать «здравствуйте, это голосовой ассистент компании X» - снижает раздражение в 2 раза.

Что дальше

Если у вас задача с голосом, BotKraft не возьмёт её к себе - мы сильны в текстовых ботах, нет смысла учиться год, чтобы делать средний voice-бот. Но мы соединим вас с проверенными командами, которые делают voice профессионально. Для контактов и обсуждения - Telegram или форма обратной связи.

Связанные материалы на сайте:

Полезные ссылки на платформы: