Исследовательская группа NVIDIA на конференции Interspeech 2021 представила нейросеть под названием RAD-TTS. Ее можно обучить человеческой речи с помощью собственного голоса, предоставляя данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.
Какие возможности есть у нейросети?
Технология позволяет заговорить любым голосом, просто зачитав готовый текст. В ее основе лежит идея восприятия человеческого голоса как музыкального произведения.
Интерфейс RAD-TTS позволяет определять тональность, длительность и силу говорящего с максимальной точностью. Одна из главных особенностей нейросети — возможность произносить речь одного человека голосом другого. Зачитав, например текст мужским голосом, нейросеть, сохраняя интонации и ритм, может преобразовать голос в женский.
В NVIDIA считают, что разработка позволит сделать искусственные голоса, применяемые в различных областях, более выразительными и реалистичными. В компании также заявили, что в перспективе подобные технологии можно будет использовать не только для озвучивания, но и для воссоздания выступлений легендарных певцов, синхронного перевода, а также для помощи людям с нарушениями голоса.
Где уже применяют синтез речи?
Синтез речи применяют в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома. В 2019 году компания Тимура Бекмамбетова научила нейросеть говорить голосами знаменитостей. Проект Vera Voice анализирует речь любого человека, например артиста, и озвучивает его голосом любые тексты. Аналогичную технологию представили в Facebook (разработчики научили нейросеть говорить голосом Билла Гейтса) и Amazon, чей голосовой помощник может общаться со своими владельцами голосом актера Сэмюэля Л. Джексона и других знаменитостей.