Речевые сервисы от google что это
Перейти к содержимому

Речевые сервисы от google что это

  • автор:

Речевые сервисы от Гугл: что это за приложение, для чего нужно?

Speech Services – разработанный специалистами компании «Гугл» сервис, способный преобразовывать голос в текст и наоборот. Это не самостоятельный компонент. Он используется другими приложениями, среди которых «Гугл Карты».

Примеры использования

Чаще всего Speech Services от корпорации «Гугл» применяют для чтения вслух в определенных приложениях, к примеру, в читалках книгах. Это означает, что любое бумажное произведение может превратиться в аудиокнигу. Но нужно учитывать тот факт, речевой синтезатор никогда не сможет прочесть так, как человек – с интонацией.

В «Гугл Переводчике» с помощью речевых сервисов можно прослушать, как произносятся слова и фразы на том или ином языке. Приложение будет полезно людям, путешествующим в чужой стране.

Каждый «Андроид»-девайс оснащен функцией TalkBack, разработанной специально для тех, кто плохо видит, слышит или имеет другие ограничения. Софт будет озвучивать все, что происходи на смартфоне.

Эту задачу как раз выполняет Speech Services. В «Гугл Плей» немало других приложений, полноценная работа которых возможна только за счет речевого синтеза.

Особенности настройки

Обычно Speech Services лишь отображается в списке приложений, что были установлены на устройство. Но его ярлыки на смартфоне найти не получается. Так и должно быть. Приложение не занимается созданием ярлыков, поскольку его опции встраиваются прямо в настройки «Андроида».

Именно там их и надо искать. Для этого необходимо действовать так:

  1. Открыть настройки на телефоне. Для этого нажать на изображение шестеренки. Перейти в «Специальные возможности».
  2. Открыть «Озвучивание текста».
  3. Там представлены опции Speech Services. Их немного. Напротив названия приложения найти кнопку буквой «i» и нажать на нее.
  4. Выбрать «Установку голосовых данных».
  5. В появившемся перечне выбрать нужный язык произношения (он будет установлен по умолчанию).
  6. Некоторые популярные языки имеют вариант. Придется определиться с одним из них. В дальнейшем будут происходить скачивание языков из интернета и их установка. Для прослушивания звучания надо тапнуть на тот или иной вариант (перед этим стоит проверить, что на телефоне включена достаточная громкость).

Эту настройку надо выполнить обязательно, чтобы речевые сервисы от «Гугл» нормально функционировали. Есть и дополнительные настройки, позволяющие, к примеру, отрегулировать тон и скорость произношения.

Все в порядке, но.

Этот текст мало кто будет читать и мы можем написать здесь все, что угодно, например.
Вы живете в неведении. Роботы уже вторглись в нашу жизнь и быстро захватывают мир, но мы встали на светлый путь и боремся за выживание человечества. А если серьезно, то.

В целях обеспечения безопасности сайта от кибератак нам необходимо убедиться, что вы человек. Если данная страница выводится вам часто, есть вероятность, что ваш компьютер заражен или вы используете для доступа IP адрес зараженных компьютеров.

Если это ваш частный компьютер и вы пытаетесь зайти на сайт, например, из дома — мы рекомендуем вам проверить ваш компьютер на наличие вирусов.

Если вы пытаетесь зайти на сайт, например, с работы или открытых сетей — вам необходимо обратиться с системному администратору и сообщить, что о возможном заражении компьютеров в вашей сети.

  • © 2005-2023, «4PDA». 4PDA® — зарегистрированный товарный знак.

Речевые сервисы от Гугл — что это за приложение, для чего нужно

Google предлагает широкий спектр речевых сервисов, которые позволяют пользователям преобразовывать текст в речь и наоборот. Эти сервисы могут быть полезными во многих ситуациях, в которых необходимо перевести текст в устную речь или создать синтезированный голос.

Главным плюсом речевых сервисов от Гугл является их простота использования. Программа обеспечивает быстрый и качественный синтезатор речи, который может озвучить любой текст. Некоторые из сервисов даже позволяют настроить голос и тон синтезированной речи.

Благодаря речевым сервисам Гугл, можно эффективно сохранять информацию в аудиоформате. Программа предоставляет возможность синтезировать большие объемы текста, что является очень полезным для создания аудио-книг, подкастов или аудио-архивов. Кроме того, использование речевых сервисов значительно упрощает работу с документами и позволяет слушать текст, вместо его чтения визуально.

Впечатляющая функциональность речевых сервисов от Гугл делает их необходимым инструментом для всех, кто нуждается в переводе текста в речь и обратно. Программа может быть полезна как для профессионалов, так и для обычных пользователей, которым требуется быстрая и точная передача информации в нужном формате. Независимо от цели использования, речевые сервисы от Гугл предоставляют широкие возможности для удобной работы с текстом и речью.

  • Речевые сервисы от Гугл: новые возможности коммуникации
  • Оценка потенциала речевых сервисов в современном мире
  • Роли и задачи речевых сервисов в повседневной жизни
  • Распознавание и синтез речи
  • Понимание и обработка текста

Речевые сервисы от Гугл: новые возможности коммуникации

речевые сервисы от гугл: новые возможности коммуникации

Еще одна полезная служба от Google – Text-to-Speech, или синтезатор речи. Благодаря ей любой текст может быть преобразован в аудиофайл с естественным звучанием. Это отличное решение для создания аудиокниг, аудиоинструкций или голосовых сообщений в приложениях.

Google также предлагает сервисы для распознавания речи в режиме реального времени. Cloud Speech-to-Text (Xodex) и Google Assistant позволяют передавать в речевой форме команды, сообщения и запросы, а программы и приложения декодируют их и предоставляют соответствующий результат.

Речевые сервисы Google открывают новые возможности коммуникации для различных сфер деятельности. Они помогают улучшить доступность информации, сократить время и усилия, потраченные на написание или чтение текстов. Теперь можно говорить, а не печатать, и получать нужную информацию или выполнить необходимые действия гораздо быстрее и эффективнее.

Оценка потенциала речевых сервисов в современном мире

оценка потенциала речевых сервисов в современном мире

Такие приложения имеют огромный потенциал и могут использоваться в различных сферах деятельности. Например, они могут быть полезны для людей с ограниченными возможностями, таких как лица с нарушениями слуха или зрения. Благодаря возможности преобразования речи в текст и наоборот, такие люди могут комфортно общаться и получать информацию, тем самым повышая свою самостоятельность.

Кроме того, речевые сервисы Google могут быть полезны в коммерческой сфере. Например, они могут использоваться для автоматизации рабочих процессов и улучшения эффективности работы сотрудников. С помощью речевых сервисов можно с легкостью преобразовывать аудиозаписи в текст и наоборот, что позволит сократить время, затраченное на оформление документов и запись важной информации.

Также речевые сервисы могут быть полезны для создания программ и приложений, которые требуют взаимодействия с пользователем с помощью голосовых команд или синтезированной речи. Благодаря гибкости и функциональности речевых сервисов Google, разработчики могут создавать инновационные приложения, которые предлагают новый уровень удобства и взаимодействия.

Таким образом, речевые сервисы Google являются необходимым инструментом в современном мире. Они предоставляют новые возможности в области коммуникации, автоматизации и разработки приложений, а также помогают улучшить доступ к информации для людей с ограниченными возможностями. Использование таких сервисов от Гугл, таких как Speech-to-Text и Text-to-Speech, позволяет сделать речевую интеграцию процессов более удобной, эффективной и инновационной.

Роли и задачи речевых сервисов в повседневной жизни

роли и задачи речевых сервисов в повседневной жизни

Распознавание и синтез речи

распознавание и синтез речи

Одной из основных задач речевых сервисов является распознавание и синтез речи. С помощью этих сервисов можно преобразовать речь в текст и наоборот.

Распознавание речи позволяет перевести устную речь в понятный для компьютера текст. Это может быть полезно, например, при диктовке текста, создании субтитров к видео или прослушивании аудиофайлов.

Синтез речи позволяет создавать звучащий текст. Это может быть полезно, когда необходимо прослушать какой-то текст, например, в случае невозможности чтения или при создании аудиокниг.

Понимание и обработка текста

понимание и обработка текста

Речевые сервисы также могут выполнять задачи, связанные с пониманием и обработкой текста. Они могут анализировать текст, выделять из него ключевые фразы и слова, а также определять эмоциональную окраску текста.

Такой анализ может быть полезен, например, при разработке приложений для автоматического определения тональности текста, мониторинге социальных сетей или создании системы поиска по заданному набору ключевых слов.

Также речевые сервисы могут выполнять задачи машинного перевода текста с одного языка на другой. Это может быть полезно при коммуникации с людьми из другой страны или при работе с иноязычными материалами.

В целом, речевые сервисы оказываются полезными во многих сферах жизни, где требуется обработка и анализ речи или текста. Они помогают значительно сэкономить время и упростить выполнение задач, связанных с речью и текстом.

Умные речевые сервисы

При всем разнообразии цифровых коммуникаций голосовое общение остается одним из важнейших каналов взаимодействия бизнеса со своими клиентами. Как цифра меняет голосовые сервисы, и когда с голосовыми ассистентами можно будет поговорить по-человечески?

Несмотря на то, что растет количество неголосовых обращений, звонки по телефону по прежнему занимают самую крупную долю в дистанционных коммуникациях, и продолжают увеличиваться в абсолютном количестве обращений, рассказывает Антон Сункин, директор филиала АО «Мосэнергосбыт» «Центр дистанционного обслуживания»:

Директор департамента сервисной поддержки клиентов компании «Триколор» Екатерина Павлова подтверждает:

Контактный центр «Триколор» перевел в этот формат более 40% таких обращений с голосового канала. Российский рынок мобильных приложений для бизнеса и госсектора: крупнейшие игроки, тенденции и перспективы. Обзор TAdviser

Каналы связи, которые клиенты банков намерены использовать для простых и сложных запросов в ближайшие годы

Источник: Deloitte Digital, Global Contact Center Survey, 2019 г.

Этот разогретый высококонкурентный рынок растет, по оценкам аналитического агентства Meticulous Research, на 17,2% каждый год, и его объем в мировом масштабе составит к 2025 г. 26,8 млрд. долл. Эксперты российской компании BSS считают, что росту голосового направления во многом способствовала ситуация в экономике, вызванная распространением коронавируса, — она стимулировала внедрение решений, основанных на речевых технологиях.

Российский рынок речевых технологий и сервисов, по сведениям аналитиков Frost & Sallivan, может достичь к 2024 г. до 20 млрд. руб. При этом, согласно экспертным оценкам, пока голосовые решения составляют лишь небольшую часть от всего объема российского рынка ИИ — около 10%.

Как рассказал Дмитрий Дырмовский, генеральный директор Центра речевых технологий (ЦРТ), крупнейшей компании России в области речевых технологий, наиболее высокую динамику роста демонстрируют направления интеллектуальных диалоговых роботов, речевой аналитики, лицевой биометрии. Так, направление аналитики диалоговых коммуникаций выросло в 2020 г. относительно 2019 г. на 48%, объем продаж по проектам внедрения продуктов ЦРТ для улучшения клиентского сервиса в банках и финансовых институтах вырос на 76%, в транспортной отрасли — в восемь раз, а в сферах строительства и электроэнергетики — более чем в 10 раз. По прогнозам ЦРТ, спрос на решения сохранится в финтехе, телекоме и здравоохранении.

Текущий технический уровень распознавания голоса

По мнению Юрия Ледакова, руководителя направления развития голосовых продуктов и интеллектуальных сервисов компании BSS, главным драйвером, двигающим развитие сегмента голосовых сервисов, является применение end-to-end моделей в распознавании речи.

В нынешних системах на базе end-to-end моделей точность распознавания голоса превышает 85% сразу «из коробки», а добавление 3 — 5 часов аннотированных (размеченных) аудиозаписей по тематике конкретной предметной области позволяет достичь точности распознавания на уровне 95%.

Правда, Станислав Ашманов, генеральный директор компании «Наносемантика», призывает с осторожностью относиться к параметрам качества, которые поставщики приводят в маркетинговых материалах:

В этой связи представляет интерес бенчмарк-тестирование, которое «Наносемантика» провела осенью прошлого года. В нем сравнивались 17 голосовых систем 14 разных вендоров (включая Яндекс, Google, Тинькофф, Amazon, Azure, Сбер, 3iTech и т.д.), которые работали на тестовом наборе данных с неспецифичной лексикой. Эти системы сравнивались с четырьмя моделями «Наносемантики»: две из них были обучены на данных телефонии и еще две – на живой речи с электронных девайсов.

Продемонстрированные результаты отличаются от маркетинговых заявлений. Впрочем, замечает Ашманов, стоит иметь в виду, что для одних вендоров профильным направлением является умный дом, для других – телефония.

Он также говорит о значимости фактора голосовых моделей и размеченных данных:

В частности, большим прорывом был концепт wav2vec2 (и далее — data2vec), для обучения которого можно было использовать относительно небольшое количество размеченных данных, и очень большое количество данных для предварительного обучения без учителя.

Александр Болтачев, ML-разработчик компании Globus IT рассказывает, что все подходы к распознаванию речи включают в себя решение двух основных задач. Во-первых, распознавание элементарных частей, называемых токенами. Во многих подходах в качестве токенов используются символы. Во-вторых, составление из токенов осмысленного предложения. Причем, на этом тапе в качестве токенов могут использоваться те элементарные части, которые распознавались из речи, но также они могут составлять другие типы токенов.

Для составления осмысленного текста применяется лингвистическая информация, выделяемая из большого набора тестов с помощью специальных лингвистических моделей (LM). Такие модели могут быть как отдельной частью системы, так и являться частью модели для распознавания речи. Именно здесь кроется основная проблема, рассказывает Александр Болтачев: при создании LM необходимо решить, что использовать в качестве токенов.

Может быть, лучше применять символы в качестве токенов? Но и тут есть свои проблемы.

Популярным стал подход, основанный на разбиении слов на под-слова, в частности, алгоритм Byte Pair Encoding (BPE): он разбивает предложения в обучающем наборе данных на самые часто встречаемые токены и по своей идее похож на алгоритм Хафмана.

Юрий Ледаков считает существеннейшим технологическим прорывом возможность обучения NLU на сверхмалых объемах данных:

… и понимания смысла сказанного

Второе важнейшее технологическое достижение анализа речи связано с распознаванием смысла сказанных слов (Natural Language Understanding, NLU), то есть алгоритмами искусственного интеллекта (ИИ), предназначенными для понимания естественного языка.

Конкретный уровень технологического развития стимулирует рост различных сегментов применения речевых решений. Наиболее серьезный прорыв сегодня достигнут в области голосового управления, считает Алексей Любимов, генеральный директор компании 3iTech.

С помощью голосового чат-бота можно осуществлять автоматический прием показаний коммунальных счетчиков или узнавать номер договора, добавляет Станислав Ашманов.

В целом, повсеместное внедрение голосовых интерфейсов — от медицины до голосовой биометрии — Алексей Любимов считает одним из прорывных направлений ближайшего будущего.

Дальнейшее развитие голосовых технологий подталкивается несколькими тенденциями. В частности, активно развиваются инструменты обработки естественного языка, который звучит в естественной среде. По мнению Дмитрия Дырмовского из ЦРТ, один из важных трендов речевых сервисов связан с выходом технологий из Call-центров в офисы и улицы: будет усиливаться запрос на распознавание «речевого коктейля»: сложные акустические условия, спонтанная речь нескольких дикторов, причем, говорящих одновременно и перебивающих друг друга.

Так, в планах компании «Наносемантика» — расширение датасета аудиозаписями, сделанными в автомобиле, в офисах и кафе, с фоновой музыкой или звуком работающего телевизора, а также речи с различными акцентами.

Одина из наиболее значительных трендов – омникальное обслуживание клиентов, что подразумевает интеграцию голоса с другими каналами общениями.

Возможности омниканальности

Омниканальность – это инструмент, который способен серьезно изменить даже такие классические сервисы, как аналитика обращений: анализируются не просто слова или тон, которым они были произнесены, а смысл фразы или диалога. В этих ситуациях используются системы обработки естественного языка (Natural Language Processing, NLP).

Наличие базы статистических данных различного типа будет способствовать развитию рынка в сторону синхронизации мультимедиа, голосовой и видеоаналитики, считает Сергей Андронов, директор Центра сетевых решений «Инфосистемы Джет». А Дмитрий Дырмовский уверен, что крупные предприятия, банки уже располагают огромным количеством клиентских данных, анализ которых позволит создавать уникальный персональный опыт при обращении клиента по разным каналам связи.

Алексей Любимов из 3iTech подтверждает, что направление речевой аналитики в последнее время существенно шагнуло вперед. Например, интернет-магазин Holodilnik.ru благодаря внедрению платформы 3iTech получает текстовую расшифровку 100% звонков по всем своим коммуникационным каналам: телефония, Telegram, Viber, WhatsApp, «ВКонтакте», Facebook, web-widget). Он может анализировать диалоги своих операторов по более, чем 30 параметрам, контролировать выполнение скриптов, делать оценку по чек-листу и выполнять автотегирование.

Стоит отметить, что омниканальный подход подразумевает особые требования к технической составляющей голосовой системы — бесшовное обслуживание на всех каналах и возможность переходить из голосового канала в мультимедийный без потери каких-либо данных. Иными словами, вступив в коммуникацию, как операторы контактного центра, так и программные роботы должны всегда понимать контекст обращения и продолжать процесс обслуживания в нужном русле.

ИИ в контактном центре

Один из классических вариантов применения интеллектуальных речевых технологий в Call-центрах компаний получил название Voice of Customer («Голос клиента»). Это удачное емкое словосочетание в сжатом виде описывает целый класс ИТ-решений, предназначенных для повышения эффективности работы Call-центра. Речь идет о системах записи переговоров операторов с клиентами и анализе этих переговоров.

Для передовых контактных центров, в которых реализовано омниканальное обслуживание клиентов, технологии распознавания естественного языка распространяются на все каналы коммуникаций: переписку по электронной почте и в мессенджерах, сообщения на корпоративных сайтах, форумах, в соцсетях. К классическому функционалу выявления позитива/негатива в высказываниях клиентов добавилось распознавание их тематики, выявление ключевых особенностей конкретного обращения и автоматический выбор сотрудника, который должен вступить в коммуникацию с клиентом по интересующему его вопросу.

С точки зрения повышения внутренней эффективности контактного центра, умные системы самостоятельно следят за загрузкой операторов, перенаправляют звонки, контролируют соблюдение сценариев разговоров, лексику оператора и коммуникативную дисциплину.

Аналитики Gartner прогнозируют в исследовании Market Guide for Speech-to-Text Solutions 2020, что к 2025 г. 40% всех входящих голосовых звонков в Call-центры будут использовать технологию преобразования речи в текст (Speech-to-Text, STT) для последующей аналитики и улучшения бизнес-процессов.

Какие аспекты контактных центров намерены развивать компании

Источник: Deloitte Digital, Global Contact Center Survey, май, 2019 г.

Данные исследований рынка подтверждают: главные ожидания корпоративного сектора в части развития Call-центров связаны с возможностями ИИ по выявлению всяческих полезных данных из речи, автоматизацией процессов (например, возможность перенаправлять взаимодействия операторам на основе предсказания результата коммуникаций с роботом), продвинутой бизнес-аналитикой, например, «Голос клиента» (Voice of Customer) и т.д.

Речевая аналитика

Аналитики Gartner в своем докладе Cool Vendors in Speech and Natural Language, опубликованном в 2019 г., отметили, что перспективные передовые решения в области распознавания речи способны выявлять из аудиосообщений много полезной информации, помимо распознавания конкретных слов.

  • Анализ эмоций. Первое, с чем стали экспериментировать Call-центры,- это выявление недовольных или разгневанных клиентов, у которых необходимо незамедлительно снять негатив. Анализ эмоций по-прежнему остается полем экспериментов, как для профессиональных разработчиков голосовых решений, так и корпоративных клиентов

В банке «Тинькофф» создали голосового робота, обладающего эмпатией. Он умеет заполнять паузы в разговоре, поддакивая «человеческим образом»: «ага, так-так» и т.д., а также задавать укороченные открытые вопросы в ответ на ту или иную фразу собеседника типа «А почему так?» и т.д.

Об интересном проекте такого рода объявил весной австралийский вуз Monash University: он разрабатывает приложение для смартфонов, предназначенное для помощи в переводе на другой язык в режиме реального времени, которое будет использоваться вместе со смарт-очками. Разработчики нового решения, ориентированного на взаимодействие людей, говорящих на разных языках, закладывают в его функциональность, помимо автоматического перевода, еще и распознавание эмоциональных сигналов, содержащихся в речи собеседника, а также языка тела и выражения лица. Ожидается, что система сможет распознавать недоумение или отрицательную реакцию другого человека в режиме реального времени и давать рекомендацию для исправления ситуации. Выпустить прототип приложения планируется в марте 2023 г.

Стоит отметить, что масштаб «умений» подобных роботов достигается за счет узкой специализации. В банке «Тинькофф» его создавали для узкой задачи – обзвона клиентов с небольшим опросом на тему качества услуг. Еще одна узкая ниша для применения ИИ-технологий – работа с возражениями. Здесь и реальному сотруднику непросто вести разговор в нужную сторону, но программная система приходит на помощь – предлагает подсказки, например, из корпоративной базы знаний, помогающие повернуть разговор в нужное русло.

  • Определение пола, возраста говорящего.Голосовой помощник Алиса из «Яндекса» научилась отличать взрослых людей от детей и формировать разные сообщения для разных категорий.
  • Выявление намерений из речи.ВТБ запустил в феврале в пилотном режиме предиктивные модели для умного голосового помощника: он будет не только идентифицировать клиента в момент звонка, но и анализировать его историю взаимодействия с банком, включая прежние обращения и оформленные услуги, и сразу сформирует гипотезу, с чем связано текущее обращение.

Станислав Ашманов из «Наносемантики» говорит, что определение намерений пользователя – это задача, которая давно хорошо решается в случае ограниченного количества возможных узлов диалога. Например, в рамках диалоговой платформы DialogOS «Наносемантики» высокий процент количества верно распознанных намерений достигается, в том числе, за счет комбинирования rule-based подхода и нейронных сетей для классификации.

Голосовые помощники и боты

Сегодня о голосовых помощниках можно сказать словами К. Пруткова: они подобны флюсу — полнота их односторонняя. Умные голосовые помощники берут на себя, в первую очередь, рутинные функции и закрывают большую часть стандартных вопросов, с которыми клиенты обращаются в компании. Так, в «Мосэнергосбыте» с помощью голосового меню клиенты могут передать показания приборов учета электроэнергии, узнать состояние счета, свой тариф на электроэнергию, получить разъяснение о причинах возникновения задолженности, оформить заявку на дополнительные услуги или узнать статус исполнения этой заявки. В числе прочего, в процессе диалога с автоматизированной системой сверяются контактные телефоны.

Обзвон должников по оплате электроэнергии также ведет голосовой сервис, который способен уточнить адресата звонка (по тому ли адресу), объяснить причины возникновения долга и рассказать о последствиях в случае неоплаты, расспросить о причинах отказа от оплаты, узнать о готовности оплатить задолженность и сроках оплаты.

В банках популярная область применения ИИ — роботы-коллекторы. Первым вступил на этот путь Сбербанк, внедрив в 2016 г. такого голосового бота в дочерней компании «Актив БК». Через год после начала его трудовой деятельности оказалось, что эффективность робота на поприще общения с должниками на 24% выше, чем у операторов. Робот-коллектор также вступил в должность в ВТБ. В банке особенно отмечали неутомимость бота, который способен производить практически неограниченное количество звонков в день.

В отличие от «живого» оператора, который легко может охватить в разговоре с клиентом широкий спектр тем, голосовые помощники всегда имеют узкую специализацию, что объясняется спецификой их подготовки к работе – для этого используются специальные словари терминов и массивы текстов, где встречаются эти термины. Например, головой помощник, реализованный в ВТБ, может помочь клиенту перевести деньги по номеру телефона и между своими счетами, пополнить счет за услуги связи. Недавно он обрел новый навык — заказать по просьбе клиента SIM-карту «ВТБ Мобайл» и получить всю от него всю необходимую информацию по времени и адресу курьерской доставки. Планируется, что в дальнейшем голосовой ассистент научится покупать для пользователей «ВТБ Онлайн» билеты на самолет или поезд, бронировать номер в гостинице, заказывать столик в кафе и приобретать билеты в кино.

Робот BSS был внедрен в структуру сервиса Rent-a-Ride, занимающегося размещением предложений по краткосрочной аренде и прокату автомобилей частных владельцев. Компания столкнулась с проблемой: четверть клиентов Rent-a-Ride предпочитают оформлять заявки по телефону, но операторы аутсорсингового контакт-центр не справлялись с потоком звонков – клиентам приходилось ждать ответа на телефонной линии, а в оформлении заявок оказывались ошибки. После внедрения голосового робота нагрузка на менеджеров сервиса снизилась более, чем на 20%, улучшилось сегментирование клиентов, рост конверсии составил 30%, а выручка по заявкам, полученным по телефону, выросла в 1,5 раза.

В банке «Хоум Кредит», по словам Наталии Бибетко, начальника Управления автоматизации процессов сервисного обслуживания, боты суммарно решают более 65% вопросов клиентов на входящей/исходящей линии и продают новые продукты. Она называет в числе уникальных способностей голосового помощника «Мария» способность произвести голосовую идентификацию по телефону, помочь в генерации PIN-кодов, совершить полное и частичное досрочное погашение, оплатить кредит по телефону, узнать дату и сумму платежа, уточнить поступление/списание и т. п. Причем, это можно сделать в ходе звонка не только с мобильного, но и городского телефона.

Виртуальный помощник, работающий в компании Tele2, помогает клиентам в digital-среде: социальных сетях, мессенджерах, чатах, мобильном приложении и на сайте компании. Сегодня он консультирует клиентов по 2 тыс. тем.

В ходе проекта создания бота «Антон» для «Росбанка» разработчики виртуального помощника из компании CTI акцентировали внимание на персонализации программного робота: он получил персональный голос, а для оценки его потребительских качеств используются не только технические характеристики, но и такие метрики, как «знания», «понятливость», «общительность» и даже «харизма».

А для Анатолия Дюбанова, министра цифрового развития и связи Новосибирской области, важнейшим свойством голосовых помощников является возможность реализации массовых сервисов по информационному облуживанию граждан на региональном уровне.

Станислав Ашманов отмечает, что умное ПО ботов сегодня способно выявлять и интерпретировать такие косвенные речевые данные, как количество перебиваний клиента или изменения скорости речи оператора.

Этому способствует, отмечает Станислав Маслов, руководитель направления роботизации и заказной разработки Softline, усиление конкуренции среди поставщиков речевых платформ, что делает соответствующие решения более доступными для клиентов, а также инструменты Low-code-моделирования диалогов, что позволяет компаниям сократить стоимость внедрения и самостоятельно поддерживать решения.

В то же время ряд факторов существенно влияет на эффективность голосовых роботов.

Во-первых, залог успешности голосового робота — ресурсы для его обучения, причем, непрерывного. Виртуального помощника, как, впрочем, и человека-оператора, нужно постоянно обучать новым знаниям и навыкам, контролировать его работу и при необходимости вносить корректировки.

Во-вторых, удачный робот должен уметь работать в информационной среде компании. Дело в том, что для ответа на, действительно, важный для клиента вопрос обычно необходима информация, непосредственно связанная с клиентом, сведения из документов, которые хранятся в неструктурированном виде, умение логически связывать между собой элементы знаний. На таком уровне пока способны работать лишь отдельные уникальные разработки голосовых роботов. Проблемы заключаются не только в отсутствии необходимых контекстно-зависимых интеграций на логическом уровне, но зачастую и в недостаточной цифровой зрелости компании – бизнес-процессы хаотичны, а данные недоступны приложениям.

Анатолий Дюбанов рассказывает, что в рамках внедрения системы голосового самообслуживания в работу «Единой регистратуры 122» пришлось разработать алгоритмы взаимодействия и интеграционные модули со стороны медицинской информационной системы (МИС), а также изменить внутренние бизнес-логики МИС, необходимые для генерации тех массивов информации, которые используются в работе сервисов голосового самообслуживания.

«Хоум-бот», реализованный в банке «Хоум Кредит» способен самостоятельно вести диалог по сложным сценариям и фиксировать его результаты во внутренних системах банка без дополнительных проверок сотрудниками. Он использует информацию из разных систем и самостоятельно вносит в них изменения по итогу диалога. Для этого, в частности, «Хоум-бот» интегрирован с RPA-ботами, которые помогают решать вопросы клиентов.

Станислав Ашманов из «Наносемантики» рассказывает, что платформа DialogOS, с технической точки зрения, интегрируется достаточно просто в существующие бизнес-процессы, и позволяет осуществлять автоматизацию многих задач.

Банк «Хоум Кредит» для улучшения клиентского сервиса и эффективности взысканий выбрал технологию преобразования голоса в текст с последующей аналитикой на базе продукта 3iTech, который был развернут в контуре банка. Причем, основной объем работ полугодового внедрения пришелся на интеграцию в экосистемы банка для сквозного процесса анализа. Часть аналитики – длительность звонка, паузы и проч. — доступна сразу, а для более глубокого анализа результаты выгружаются в хранилище Big Data.

Зачастую отрицательные впечатления от голосовых помощников связаны с неоправданными ожиданиями клиентов.

Простые запросы имеет смысл обрабатывать с помощью умных и быстрых голосовых помощников, а если человеку, оказавшемуся в сложной ситуации, требуется ряд глубоких последовательных консультаций специалиста, то эта задача под силу только человеку или зрелой экспертной системе.

В целом, туповатость некоторых чат-ботов, с которыми люди встречаются в повседневной жизни, — это временное явление, болезнь роста, которая будет преодолена, уверен Алексей Любимов из 3iTech.

Действительно, для решения задачи обработки естественного языка нужно найти достаточно размеченных людьми примеров, чтобы обучить нейросеть. Для того обеспечить рост качества «понимания» естественного языка, нужно увеличить обучающую выборку до миллионов, а лучше миллиардов примеров. Правда, немногие компании способны на такие действия. Но уже просматривается выход из ситуации, полагает Алексей Любимов:

Аналитики Gartner предрекают в своем исследовании Market Guide for Speech-to-Text Solutions, опубликованном в 2020 г., период рыночных трансформаций. Речь идет о том, что в течение следующих пяти лет нам предстоит увидеть дальнейшую эволюцию предложений разработчиков в более широкие голосовые услуги. Они будут иметь вид некоторых синергических пакетов – мультимодальных комплексов различных технологий обработки естественного языка (Natural Language Technologies, NLT). Иными словами, особенность голосовых решений заключается в том, что их развитие идет по пути не технической интеграции отдельных технологий, а их синергического объединения.

Эволюция систем «Речь-Текст» в направлении синергических пакетов

Источник: Market Guide for Speech-to-Text Solutions, Gartner, 2020

Нишевые голосовые решения, по мнению аналитиков Gartner, останутся востребованными, но доминирование на рынке перейдет к экосистемам NLT. А поставщиками этих широких пакетов технологий станут крупные облачные провайдеры решений и услуг ИИ. По мысли аналитиков Gartner, именно они будут концентрировать в своих руках, как лингвистические ресурсы, так и акустические модели, а также конкретные механизмы обработки естественного языка: преобразование речи в текст (Speech To Text, STT), текста в речь (Text To Speech, TTS), извлечение смысла из текста, автоматический перевод, генерация текстов на естественном языке (Natural-Language Generation, NLG). Там же окажутся разговорные платформы, обеспечивающие поддержку диалоговых коммуникаций человека с роботом.

Пожалуй, достижение этой синергии составляет главный вызов нынешних голосовых технологий и сервисов. Она необходима, как со стороны разработчика сервиса (объединение технологических возможностей в рамках единого кастомизированного сервиса), так и со стороны клиентов (комплексная готовность различных служб и процессов к работе в формате человеко-машинного диалога с потребителями).

Российский рынок разговорного интеллекта: сегодня и завтра

Исследовательская и консалтинговая компания Gartner отметила в отчете «6 Trends on the Gartner Hype Cycle for the Digital Workplace», опубликованном в 2020 г., что рынок разговорного ИИ прошел пик завышенных ожиданий. Выход на плато продуктивности следует ожидать в перспективе 5-10 лет: по чат-ботам и виртуальным ассистентам — к 2022-2025 годам, по разговорным пользовательским интерфейсам (Conversational User Interfaces, CUI) — к 2025-2030 гг.

Сегодняшний момент интересен тем, отмечают специалисты компании Just AI в своем исследовании «Рынок разговорного ИИ в России 2020-2025», подготовленном летом прошлого года, что в фазу активного развития вошли все инструменты и платформы разговорного ИИ:

  • Речевые технологии: синтез и распознавание речи, клонирование голосов, речевая биометрия, голосовая активация и т.п.
  • Технологии и платформы для обработки голоса: NLP (Natural Language Processing, обработка естественного языка), NLU (Natural Language Understanding, понимание естественного языка), DM (Dialog Management, управление диалогами), интеграции, ML-модели, данные.
  • Low-code/No-code конструкторы ботов: средства визуальной разработки диалоговых сценариев в голосовых или текстовых каналах.
  • Речевая аналитика: платформы анализа речи для определения качества диалога между людьми.

При этом решения NLP/NLU, виртуальные ассистенты, боты находятся в фазе активных пилотов в крупных корпорациях с выручкой более 1 млрд. долл. По оценкам Gartner, для крупного бизнеса риски внедрения разговорных ИИ-технологий уже минимальны, а выгоды высоки. Средний бизнес пока находится на этапе планирования — ему нужны кастомизируемые решения под конкретную потребность. Малый бизнес будет захватывать рынок последним, полагаясь на коробочные, требующие минимальной адаптации решения и сервисных партнеров.

Действительно, на рынке разговорного ИИ в России работают более 100 компаний, многие из них растут с темпами на 200-400% в год.

Согласно результатам исследования Just AI, самый большой сегмент на российском рынке разговорного ИИ — решения для государственных и муниципальных учреждений. Фактически здесь доминирует группа компаний ЦРТ. В речевых технологиях (ASR/TTS/Biometry) наибольший объем рынка приходится на ЦРТ, Yandex.Cloud, «Тинькофф», ASM Решения, 3iTech. В области платформ речевой аналитики лидируют Speech Analytics, CallScoring, 3iTech, также сюда вошли «Тинькофф» и «Ростелеком». В сегменте No-code / Low-code конструкторов наиболее заметными игроками на текущий момент являются Just AI и Botmother, в сегменте NLP/NLU/DM-платформ — Just AI, «Наносемантика, ЦРТ», в исходящих телефонных коммуникациях — Neuro.net и Zvonobot.

В связи с комфортным порогом входа в рынок больше всего игроков работает в сегменте кастомных ассистентов, решений для клиентской поддержки, навыков для ассистентов, входящего IVR, решений для рекрутинга и HR. Здесь представлены компании с самым разным технологическим бэкграундом и объемом выручки — от крупных вендоров и интеграторов до небольших независимых студий.

Правда, сам объем рынка разговорного ИИ в России пока невелик: 76 млн. долл. с учетом госзаказов (данные на август 2021 г.). Однако темпы роста индустрии впечатляют: ежегодный рост на уровне 46-93%. В ближайшие пять лет, по оценкам Just AI, рынок сохранит динамику роста на уровне от 38 — 81% и в 2025 г. выйдет на объем 561 млн. долл. При этом различные сегменты данного рынка растут неравномерно. Так, если в 2020 г. наибольшими сегментами на рынке были речевые технологии и NLP-платформы, то в 2025 г. половину всего российского рынка займет сегмент специализированных решений для бизнеса, в том числе SMB.

При этом сегмент NLP/NLU/DM-платформ продолжит рост, главным образом, за счет вовлечения новых сегментов бизнеса и разработчиков в сферу разговорного ИИ: ритейла, страхования, транспорта, HoReCa, пришедших вслед за лидерами — ИТ-компаниями, банками, телеком-операторами. Кроме того, бизнес расширяет сферы применения NLP-платформ: вслед за текстовыми чат-ботами идет в голосовые каналы, начинает использовать текстовых и голосовых суфлеров в контакт-центрах, заменяет традиционные IVR на IVR с пониманием естественного языка, добавляет голосовое управление в мобильные приложения и создает кастомных голосовых ассистентов, появляются нишевые NLP-решения для маркетинга, HR и других областей.

Ключевым трендом развития рынка разговорного ИИ эксперты Just AI считают быстрое продвижение на рынок умных колонок и экранов от Яндекса, Сбера и Mail.Ru – более 20 млн шт. к 2025 г.

Синтез речи

Аналитики прогнозируют ежегодный рост глобального рынка синтеза речи рост более, чем на 30%. Очевидно, что в этой части нам тоже предстоит увидеть немало открытий: в области управления синтезированным голосом (дыхание, паузы, интонации, ударения и т.д.), а также в части возможности создавать полноценные голоса на малом количестве исходных данных.

Качество синтеза речи постоянно растет, утверждает Кирилл Петров, управляющий директор компании Just AI в статье в журнале Techinsider (февраль 2022 г.):

Эксперт называет одним из главных трендов текущего года в этой части использование эмоций в синтезе речи:

В марте нынешнего года компания Just AI объявила о выходе на рынок решения гибридного синтеза речи. Слово «гибридный» подразумевает использование специальной модели машинного обучения: используется заранее записанный дикторский текст, а для озвучивания переменных частей фраз (например, имя человека, к которому обращается бот, перечень покупок в интернет-магазине или имя лечащего врача, к которому хочет записаться пациент) применяется механизм синтеза речи (Text-to-Speech, TTS) на базе звучания голоса диктора.

Возможно обращение к данному решению из ботов, созданных в других сервисах, через API. Настройка сценария с нуля занимает несколько часов, говорят в компании. Доступны два женских голоса и один мужской. Оплата сервиса – за каждую синтезированную реплику.

Существенный тренд — клонирование голосов. Аналитики прогнозируют, что глобальный рынок клонирования голосов, в ближайшие годы будет расти ежегодно более, чем на 30%.

Свою платформу для создания кастомных нейронных голосов представила корпорация Microsoft. На российском рынке появился первый маркетплейс голосов Aimyvoice, который Just AI запустила в конце прошлого года. Там можно выбрать из почти двух десятков подходящий для своих задач голос, например, Кроша из «Смешариков». Можно также выложить в Aimyvoice в открытом или закрытом режиме модель конкретного голоса для синтеза речи и получать доход от ее использования в различных проектах, таких, как озвучивание аудиокниг, видеоигр, подкастов, голосовых ассистентов, ботов, телефонных проектов IVR. Главное, чтобы владелец голоса дал согласие на его использование. Например, на маркепплейсе Aimyvoice опубликованы голоса известной актрисы дубляжа Татьяны Литвиновой, она стала первой актрисой, которая будет получать доход за каждую синтезированную минуту речи. А вот голос Кроша находится в ограниченном доступе и доступен для синтеза после заключения договора с правообладателями.

Вопрос только в готовности самих бизнес-процессов использовать сквозные цифровые технологии, говорит эксперт, без этого даже чат-боты будут только модной фичей, не приносящей бизнесу никакой пользы, кроме освобождения пары-тройки сотрудников.

Другие материалы обзора

  • Обработка данных в глубинных нейронных сетях: достижения и вызовы текущего момента
  • ИИ: от данных – к знаниям
  • Обработка документов и текстов на естественном языке
  • Умная обработка процессов
  • Интеллектуальная видеоаналитика
  • Новые вызовы для задач информационной безопасности
  • ИИ в аналитике: что за пределами BI?
  • Умное производство
  • Виртуальные помощники
  • Умный город
  • Заключение. Куда катится мир практических реализаций ИИ?

Другие материалы по теме ИИ

  • Рынок искусственного интеллекта в России достиг точки перелома. Обзор TAdviser 2020
  • Искусственный интеллект (ИИ, Artificial intelligence, AI)
  • Искусственный интеллект (рынок России)
  • Искусственный интеллект (мировой рынок)
  • Компьютерное зрение: технологии, рынок, перспективы
  • Системы видеоаналитики Каталог систем и проектов видеоаналитики
  • Национальная стратегия развития искусственного интеллекта
  • Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
  • RPA — Роботизированная автоматизация процессов
  • Видеоаналитика (машинное зрение)
  • Машинный интеллект
  • Когнитивный компьютинг
  • Наука о данных (Data Science)
  • DataLake (Озеро данных)
  • BigData
  • Нейросети
  • Чатботы
  • Умные колонки Голосовые помощники
  • Искусственный интеллект в разных сферах: в банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
  • Беспилотные автомобили в мире
  • Беспилотные автомобили в России

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *