Posted 2 декабря 2020, 11:22
Published 2 декабря 2020, 11:22
Modified 18 октября 2022, 05:26
Updated 18 октября 2022, 05:26
Персонаж, которого сыграл всенародно любимый актёр театра и кино Леонид Куравлёв в фильме «Иван Васильевич меняет профессию», ещё в 1973 году призывал: «Храните деньги в сберегательной кассе».
Оказавшись в 2020 году, герой узнаёт, что теперь Сбер — больше чем банк, не просто финансовая компания, а технологический гигант. А как раз одна из компаний экосистемы Сбера и сделала возращение любимого персонажа возможным.
Помимо воссоздания внешности киногероя с помощью технологий искусственного интеллекта, создателям ролика необходимо было синтезировать его голос, который является важной составляющей образа героя. Эту нестандартную задачу решали специалисты Группы ЦРТ, входящей в экосистему Сбера.
Обычно для качественного синтеза речи с помощью технологии TTS (text-to-speech) требуется не менее 20 часов речи диктора, записанной в студии по определённому текстовому шаблону. В случае с голосом Леонида Куравлёва задача требовала нестандартного подхода.
Во-первых, нужен был именно тот голос, которым актёр говорил 47 лет назад, а с годами его речь изменилась. Во-вторых, даже с учётом того что актёр на протяжении 70-х годов много снимался в кино, записи его голоса не всегда подходили для работы. В разных кинокартинах, в зависимости от роли, актёр менял манеру речи и подачу, на его монологи накладывалась фоновая музыка и шум плюс старые записи, даже оцифрованные, содержат дефекты.
В общей сложности в распоряжении команды ЦРТ было около четырёх минут разнообразно звучащей речи актёра из таких фильмов, как «Глубокие родственники», «Суета сует», «Не может быть» и «Иван Васильевич меняет профессию». Эти аудиодорожки легли в основу обучения системы TTS и синтеза речи.
Для зрителей и слушателей такое аудио ничем не отличается от обычного, и они не смогут различить, что было синтезировано, а что — архивная запись. Однако специальные системы детектирования, которые разрабатывает Группа ЦРТ, способны определить искусственность голоса. Это позволяет защититься от хакеров и безопасно использовать TTS в коммерческих проектах компании.
Благодаря такой кропотливой работе Жорж Милославский побывал на концерте NILETTO, познакомился с новыми сервисами Сбера, а также подарил зрителям радость и веру в новогоднее чудо, ведь такие необычные волшебные истории обычно случаются в канун самого любимого праздника — Нового года.
Владислав Крейнин, Старший вице-президент, директор Департамента маркетинга и коммуникаций:
«В нашей новой рекламной кампании мы хотели ещё раз рассказать, что сегодня Сбер уже больше чем банк. А как это сделать просто и технологично? Используя самые передовые технологии, которые у нас есть, мы не только перенесли Жоржа Милославского в 2020 год, но и смогли объединить сразу несколько поколений нашей страны и зарядить предпраздничным настроением, которое так сегодня необходимо всем нам.
Вся представленная история — это знакомство героя с новым миром, динамичным, цифровым, полным возможностей. И в этом увлекательном путешествии у любимого киноперсонажа есть доверенный и надёжный помощник — Сбер».
Дмитрий Дырмовский, Генеральный директор Группы компаний ЦРТ:
«Группа ЦРТ создаёт технологии мирового уровня, синтез речи (Text-to-speech, TTS) — одна из них. Мы создаём её на стеке методов глубинного обучения, что позволяет добиться высокого качества звучания синтезированного голоса. Учитывая задачи и сроки этого проекта, мы пошли нестандартным путём: собрали данные для обучения TTS из фрагментов фильмов, построили фонемную транскрипцию, выровняли со звуковой дорожкой, очистили данные от постороннего шума. Затем имеющуюся модель, обученную на большом экспрессивном наборе данных, обучили говорить новым голосом, сделали голос эмоциональным, похожим на нашего героя. Так, с помощью нейросетей всего по четырём минутам речи нам удалось воссоздать голос 50-летней давности. Но, несмотря на то что на непрофессиональный слух синтезированный голос неотличим от реального, это всё-таки синтез. Для того чтобы выявлять синтезированный голос от живой человеческой речи, в ЦРТ разрабатывают специальные системы детектирования спуфинг-атак (попыток взлома), они учитывают массу характеристик звука, указывающих на то, что голос не является живым. Мы всегда должны быть на шаг впереди: не только создавать новые технологии и продукты, но и постоянно искать новые средства их защиты. Последние мировые конкурсы демонстрируют, что нам это удаётся».