Facebook разрабатывает ИИ, способный с беспрецедентной точностью копировать любой голос
Новая модель глубокого обучения под названием MelNet может воспроизводить человеческую интонацию с невероятной точностью.
После обучения он может регенерировать любой голос за несколько секунд.
Исследователи демонстрируют, насколько точно он может клонировать голос Билла Гейтса.
В последние годы были достигнуты огромные успехи в технологиях машинного обучения. Эти методы действительно хорошо зарекомендовали себя при распознавании объектов, лиц и создании реалистичных изображений.
Однако когда дело доходит до звука, искусственный интеллект разочаровывает. Даже в лучших системах преобразования текста в речь отсутствуют базовые функции, такие как изменение интонации. Вы слышали машинный голос Стивена Хокинга? Иногда его предложения сложно понять.
Теперь ученые из Facebook AI Research разработали метод преодоления ограничений существующих систем преобразования текста в речь. Они построили генеративную модель под названием MelNet, которая может воспроизводить человеческую интонацию со сверхъестественной точностью. Фактически, он может бегло говорить любым голосом.
Чем MelNet отличается от существующей машинной речи?
Большинство алгоритмов глубокого обучения обучаются на больших базах аудиоданных для восстановления реальных речевых паттернов. Основная проблема этой методологии - тип данных. Как правило, эти алгоритмы обучаются на записях звуковых сигналов, которые имеют сложную структуру в резко меняющихся временных масштабах.
Эти записи показывают, как амплитуда звука меняется со временем:одна секунда звука содержит десятки тысяч временных шагов. Такие формы сигналов отражают определенные закономерности в различных масштабах.
Существующие генеративные модели сигналов (такие как SampleRNN и WaveNet) могут распространяться в обратном направлении только за доли секунды. Следовательно, они не могут уловить высокоуровневую структуру, возникающую в масштабе нескольких секунд.
MelNet, с другой стороны, использует спектрограммы (вместо звуковых сигналов) для обучения сетей глубокого обучения. Спектрограммы - это двухмерные частотно-временные представления, показывающие весь спектр звуковых частот и их изменение со временем.
Шаблоны спектрограммы и формы волны одного и того же 4-секундного аудиоконтента
В то время как одномерные осциллограммы во временной области фиксируют изменение во времени одной переменной (амплитуды), спектрограммы фиксируют изменение на разных частотах. Таким образом, звуковая информация более плотно упакована в спектрограммы.
Это позволяет MelNet создавать безусловные речевые и музыкальные сэмплы с последовательностью в течение нескольких секунд. Он также поддерживает генерацию условной речи и синтез текста в речь, полностью сквозной.
Ссылка:arXiv:1906.01083 | GitHub
Чтобы уменьшить потерю информации и ограничить чрезмерное сглаживание, они смоделировали спектрограммы с высоким разрешением и, соответственно, использовали очень выразительную модель авторегрессии.
Результаты впечатляют
Исследователи обучили MelNet многочисленным лекциям Теда, и затем он смог регенерировать голос говорящего, произносящего случайные фразы в течение нескольких секунд. Ниже приведены два примера использования MelNet голоса Билла Гейтса для произнесения случайных фраз.
Хотя MelNet создает удивительно реалистичные аудиоклипы, он не может генерировать более длинные предложения или абзацы. Тем не менее, система может улучшить взаимодействие компьютера и человека.
Многие разговоры с клиентами состоят из коротких фраз. MelNet можно использовать для автоматизации таких взаимодействий или для замены текущей автоматизированной голосовой системы, чтобы улучшить качество обслуживания абонентов.
Читайте:Facebook AI преобразует музыку из одного стиля в другой
С другой стороны, технология поднимает призрак новой эры поддельного аудиоконтента. И, как и другие достижения в области искусственного интеллекта, он поднимает больше этических вопросов, чем дает ответов.