Новый искусственный интеллект Google распознает отдельные голоса в людных местах

Google разрабатывает новый искусственный интеллект, который может фокусироваться на определенном голосе в людном месте.
Для разделения голосов он использует комбинацию визуальных и слуховых сигналов.
Эта технология также может обеспечить лучшую систему субтитров для видео с перекрывающимися говорящими за счет предварительной обработки распознавания речи.

Люди исключительно хорошо улавливают определенный голос в людном месте, приглушая все остальные звуки. Однако это остается сложной задачей для машин. Они по-прежнему плохо различают отдельные речи, когда разговаривают два или более человека или при наличии фонового шума.

Теперь Google разработала аудиовизуальную модель, основанную на глубоком обучении, которая может фокусироваться на одном аудиосигнале из смеси голосов и фонового шума. ИИ может анализировать видео и усиливать голоса определенных людей, подавляя при этом все остальные звуки.

Для этого не требуется какой-либо специальный аудио- или видеоформат; он работает со всеми распространенными видеоформатами с одной звуковой дорожкой. Пользователь может выбрать конкретное лицо в видео, которое он/она хочет послушать, или позволить алгоритму сделать это в зависимости от контекста.

Технология использует комбинацию визуальных и слуховых сигналов видео для разделения голосов. Алгоритмы могут определить, какой человек в данный момент говорит, по движениям его рта. Эти визуальные сигналы значительно улучшают качество разделения речи в смешанной речи и связывают звуковые дорожки с видимыми динамиками.

Как это сделано?

Инженеры собрали огромное количество качественных YouTube-видео ток-шоу и лекций для создания обучающих образцов. Затем из этих видео отфильтровали 2000 часов клипов. Отфильтрованное видео с чистым голосом – без шума аудитории, смешанной музыки и фоновых помех.

Затем они использовали этот контент для создания комбинации видео лиц с соответствующей речью и фоновым шумом из разных источников. Они обучили многопотоковую сверточную нейронную сеть. чтобы отделить голоса отдельных говорящих от видео со смешанной речью.

В нейронную сеть вставляются как спектрограмма звуковой дорожки, так и миниатюры лиц говорящих в каждом кадре (извлеченные из видео). Сеть постепенно учится (период обучения) кодировать слуховые и зрительные сигналы и объединять их для создания единого аудиовизуального контента.

Тем временем сеть также учится предоставлять частотно-временные маски для отдельных говорящих. Затем он умножает шумные входные спектрограммы на маски, чтобы вывести чистую речь, одновременно подавляя помехи и шум.

Подробности реализации

Сеть реализована на TensorFlow (инфраструктура машинного обучения с открытым исходным кодом), и ее операции используются для выполнения сигналов и кратковременного преобразования Фурье. За всеми сетевыми слоями, за исключением слоя маски, следует активация выпрямленной линейной единицы.

Пакетная нормализация выполняется для всех сверточных слоев. Для этого они использовали размер партии из 6 образцов и обучили 5 миллионов партий (шагов). Звук преобразуется в частоту 16 кГц, а стереозвук превращается в моно для расчета кратковременного преобразования Фурье.

Ссылка:arXiv:1804.03619 | Google Исследования

Все представления лиц перед тренировкой ресэмплируются до 25 кадров в секунду, в результате чего входной визуальный поток состоит из 75 изображений лиц. Они использовали нулевые векторы, когда в конкретной выборке встречались пропущенные кадры.

Приложения

У этой технологии может быть бесчисленное множество применений:от распознавания звука в видео до улучшения речи, особенно когда говорят несколько человек. Это расширит типы микрофонов, которые можно будет использовать в различных аудиосредах. Но на данный момент YouTube и Hangouts кажутся двумя простыми отправными точками. В конечном итоге его можно будет применить к наушникам с усилителем голоса и очкам Google.

Читайте:Google разрабатывает голосовой ИИ, неотличимый от человеческого | Такотрон 2

Кроме того, этот метод потенциально может обеспечить лучшую систему субтитров к видео для перекрывающихся говорящих за счет предварительной обработки распознавания речи. Эта функция облегчит глухим людям участие в телеконференциях и просмотр видеороликов.

Квантовые случайные числа устанавливают новый стандарт точности Техника PRISM разрушает пределы дифракции света для визуализации живых клеток в пространстве и времени

Промышленные технологии

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии