Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

Facebook разрабатывает ИИ, способный с беспрецедентной точностью копировать любой голос

В последние годы были достигнуты огромные успехи в технологиях машинного обучения. Эти методы действительно хорошо зарекомендовали себя при распознавании объектов, лиц и создании реалистичных изображений.

Однако когда дело доходит до звука, искусственный интеллект разочаровывает. Даже в лучших системах преобразования текста в речь отсутствуют базовые функции, такие как изменение интонации. Вы слышали машинный голос Стивена Хокинга? Иногда его предложения сложно понять.

Теперь ученые из Facebook AI Research разработали метод преодоления ограничений существующих систем преобразования текста в речь. Они построили генеративную модель под названием MelNet, которая может воспроизводить человеческую интонацию со сверхъестественной точностью. Фактически, он может бегло говорить любым голосом.

Чем MelNet отличается от существующей машинной речи?

Большинство алгоритмов глубокого обучения обучаются на больших базах аудиоданных для восстановления реальных речевых паттернов. Основная проблема этой методологии - тип данных. Как правило, эти алгоритмы обучаются на записях звуковых сигналов, которые имеют сложную структуру в резко меняющихся временных масштабах.

Эти записи показывают, как амплитуда звука меняется со временем:одна секунда звука содержит десятки тысяч временных шагов. Такие формы сигналов отражают определенные закономерности в различных масштабах.

Существующие генеративные модели сигналов (такие как SampleRNN и WaveNet) могут распространяться в обратном направлении только за доли секунды. Следовательно, они не могут уловить высокоуровневую структуру, возникающую в масштабе нескольких секунд.

MelNet, с другой стороны, использует спектрограммы (вместо звуковых сигналов) для обучения сетей глубокого обучения. Спектрограммы - это двухмерные частотно-временные представления, показывающие весь спектр звуковых частот и их изменение со временем.

Шаблоны спектрограммы и формы волны одного и того же 4-секундного аудиоконтента

В то время как одномерные осциллограммы во временной области фиксируют изменение во времени одной переменной (амплитуды), спектрограммы фиксируют изменение на разных частотах. Таким образом, звуковая информация более плотно упакована в спектрограммы.

Это позволяет MelNet создавать безусловные речевые и музыкальные сэмплы с последовательностью в течение нескольких секунд. Он также поддерживает генерацию условной речи и синтез текста в речь, полностью сквозной.

Ссылка:arXiv:1906.01083 | GitHub

Чтобы уменьшить потерю информации и ограничить чрезмерное сглаживание, они смоделировали спектрограммы с высоким разрешением и, соответственно, использовали очень выразительную модель авторегрессии.

Результаты впечатляют

Исследователи обучили MelNet многочисленным лекциям Теда, и затем он смог регенерировать голос говорящего, произносящего случайные фразы в течение нескольких секунд. Ниже приведены два примера использования MelNet голоса Билла Гейтса для произнесения случайных фраз.

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

«Портвейн - крепкое вино с дымным вкусом».

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

«Мы хмуримся, когда дела идут плохо».

Другие примеры доступны на GitHub.

Хотя MelNet создает удивительно реалистичные аудиоклипы, он не может генерировать более длинные предложения или абзацы. Тем не менее, система может улучшить взаимодействие компьютера и человека.

Многие разговоры с клиентами состоят из коротких фраз. MelNet можно использовать для автоматизации таких взаимодействий или для замены текущей автоматизированной голосовой системы, чтобы улучшить качество обслуживания абонентов.

Читайте:Facebook AI преобразует музыку из одного стиля в другой

С другой стороны, технология поднимает призрак новой эры поддельного аудиоконтента. И, как и другие достижения в области искусственного интеллекта, он поднимает больше этических вопросов, чем дает ответов.


Промышленные технологии

  1. Схема с переключателем
  2. Наборы разработчика ускоряют интеграцию с Alexa
  3. Устройства с низким энергопотреблением могут слушать с помощью кремниевой улитки
  4. Как граничные аудиопроцессоры обеспечивают интеграцию голоса в устройствах Интернета вещей
  5. Когда звук через BLE встречается с постоянно включенной голосовой активацией
  6. Renesas разрабатывает микроконтроллер 28 нм с функциями виртуализации
  7. Рекомендации по проектированию маломощных, постоянно включенных систем голосового управления
  8. KB Components развивает логистику вместе со специалистом по автоматизации Swisslog
  9. Токарный станок с возможностью ручного управления с поддержкой ЧПУ
  10. Автономная мобильная платформа обеспечивает точность и безопасность