Posted 22 сентября 2022, 11:24

Published 22 сентября 2022, 11:24

Modified 18 октября 2022, 06:06

Updated 18 октября 2022, 06:06

ВКонтакте открывает доступ к собственным технологиям распознавания речи

22 сентября 2022, 11:24

Теперь разработчики смогут бесплатно использовать в своих инди-проектах технологию ВКонтакте, которая считывает голос и переводит его в текст.

Об этом рассказал технический директор ВКонтакте Александр Тоболь на открытии конференции Saint HighLoad++. Технология распознавания речи, или ASR, Automatic Speech Recognition, внедряется в несколько кликов. Нейросети хорошо справляются с аудио с посторонними шумами, большим количеством сленга и сокращений.

Для распознавания можно выбрать одну из двух моделей. Нейтральная подойдёт для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети ВКонтакте обрабатывают файлы за несколько секунд, умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь и даже отдельный звук «ъ».

Технологию можно попробовать через веб-интерфейс на специальной странице или интегрировать через публичный API ВКонтакте. На портале доступен широкий набор методов, с помощью которых можно создавать мини-приложения ВКонтакте или использовать в сторонних проектах. Решение подойдёт для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития. Версию с обработкой аудио до 100 минут в сутки можно применять для любых целей. А для безлимитного использования технологии можно отправить заявку на электронную почту.

Александр Тоболь, СТО ВКонтакте:«Мы считаем важным помогать рынку и уже делимся широким набором собственных уникальных технологий. Наше ASR-решение — одно из лучших в отрасли по распознаванию обыденной, повседневной речи, в которой нередко встречается сленг, заимствования, сокращения. Каждый месяц пользователи ВКонтакте отправляют более 2 млрд голосовых — это миллионы часов аудио, которые обрабатывают наши нейросети. Применение технологии ограничено только вашей фантазией: можете сделать игру с голосовым управлением или с помощью чат-бота наконец добавить распознавание голосовых в какой-нибудь сторонний мессенджер. Надеемся, что наш ASR поможет появиться новым необычным стартапам и инди-проектам от молодых перспективных разработчиков».

ASR используется ВКонтакте для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций и многого другого. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается очень быстро — примерно за 1,5 секунды после отправки.

#Общество #Новости

Подпишитесь

Сетевое издание «Udm-info». Средство массовой информации зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций,
регистрационный номер серия ЭЛ № ФС 77-74117 от 23 ноября 2018 г.

Учредитель: ООО «ПремьерМедиаИнвест»

Главный редактор: Шкляева Надежда Хамбаловна

Телефон: +7 985 271 61 23 / +7 (499) 110-58-85

Электронный адрес: sparta_n@inbox.ru / ooopremmediainvest@gmail.com

Адрес редакции: 109 044, Москва г, вн. тер. г. муниципальный округ Таганский, ул. Воронцовская, д. 20, этаж 2, ком. 14

Реклама: lyskova@1mi.media
тел: +7 (922) 513-06-84

Редакционные правила

Политика конфиденциальности