03.01 - 14:55

Китайцы научили нейросеть превращать речь в пение


 

Китайские разработчики создали алгоритм, способный синтезировать запись с пением человека на основе записи с его обычной речью, или же выполнять обратную задачу и синтезировать речь на основе пения. Статья с описанием разработки, обучения и тестирования алгоритма опубликована на arXiv.org.

В последние годы развитие нейросетевых алгоритмов для синтеза речи, таких как WaveNet, позволило создать системы, которые достаточно сложно отличить от реальных людей. Например, Google в 2018 году показала голосового помощника для бронирования мест, который умеет не только реалистично говорить, но и вставлять слова, придающие речи правдоподобность, например, «эмм». В результате компании пришлось также научить алгоритм предупреждать в начале разговора, что он не является человеком.

Как и в случае с другими нейросетевыми алгоритмами, успех систем синтеза речи во многом связан не с их архитектурой, а с большим объемом доступных данных для обучения. Создание системы синтеза пения представляет собой похожую на первый взгляд задачу, но на самом деле гораздо сложнее из-за значительно меньшей доступности данных. Многие разработчики систем генерации пения в последнее время шли по пути уменьшения объема необходимых образцов пения конкретного человека для обучения алгоритма, а теперь группа китайских исследователей под руководством Дуна Юя (Dong Yu) из компании Tencent создала систему, которая способна создавать реалистичную аудиозапись с пением, получая на вход только образцы речи.

Алгоритм основан на предыдущей разработке Tencent — нейросети DurIAN, предназначенной для синтеза реалистичных видеороликов с говорящим ведущим на основе текста. Перед DuarIAN в новом алгоритме установлен блок распознавания речи, который создает на основе входящей аудиозаписи фонемы с указанием их продолжительности, а также основные частоты. Эти данные попадают на блок, состоящий из кодировщика и декодировщика, который формирует мел-спектрограмму, которую отдельная нейросеть превращает в аудиозапись. Алгоритм может работать в обе стороны, конвертируя речь в пение и наоборот.

Авторы обучили алгоритм на двух собственных датасетах, состоящих из полутора часов пения и 28 часов речи. После обучения разработчики проверили эффективность алгоритма на 14 добровольцах, которые оценивали реалистичность синтезированного пения и похожесть тембра на исходную запись. В результате один из вариантов алгоритма набрал 3,8 балла по реалистичности и 3,65 по похожести. На сайте авторов опубликованы образцы работы нейросети.

Многие исследования в области нейросетевых алгоритмов по работе со звуком связаны с музыкой. Например, нейросети уже умеют менять жанр, стиль и инструменты в песнях, а также выполнять более практичные задачи, в том числе дополнять мелодию игрой на барабанах.
Григорий Копиев

https://nplus1.ru/

Ключевые слова:
Читайте также:

Herbata i jej korzyści dla organizmu: fakty naukowe

Herbata to jeden z najpopularniejszych napojów na świecie i od tysięcy lat wykorzystywana jest nie tylko do gaszenia pragnienia, ale także w tradycyjnej medycynie
Подробнее »»

Чай та його користь для організму: наукові факти

Чай є одним з найпопулярніших напоїв у світі, і вже протягом тисячоліть він використовується не лише для втамування спраги, а й у традиційній медицині
Подробнее »»

Dlaczego spanie na lewym boku jest dobre dla zdrowia

Sen jest ważną częścią naszego codziennego życia, a sposób w jaki śpimy może mieć znaczący wpływ na nasze zdrowie fizyczne i psychiczne
Подробнее »»

Warum das Schlafen auf der linken Seite gut für die Gesundheit ist

Schlaf ist ein wichtiger Teil unseres täglichen Lebens und die Art und Weise, wie wir schlafen, kann einen erheblichen Einfluss auf unsere körperliche und geistige Gesundheit haben
Подробнее »»

Чому сон на лівому боці корисний для здоров’я

Сон є важливою частиною нашого повсякденного життя, і те, як ми спимо, може мати значний вплив на наше фізичне та психічне здоров’я
Подробнее »»

bigmir)net TOP 100 Яндекс.Метрика

При использовании информации в печатном или электронном виде ссылка на www.neboley.com.ua обязательна.
Интернет–издание не несет ответственность за достоверность информации, размещенной в разделах народной медицины. Предупреждаем, прежде чем воспользоваться рецептами нетрадиционной медицины обязательно посоветуйтесь с врачом.
За содержание рекламы ответственность несет рекламодатель.

Электронная почта портала: info@neboley.com.ua