Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

ИИ Samsung может создавать говорящие кадры из одной фотографии

Программное обеспечение для создания дипфейков (методика синтеза человеческих изображений на основе искусственного интеллекта) требует больших наборов изображений для создания реалистичной подделки. Последние достижения в области нейронных сетей показали, насколько реалистичные человеческие изображения могут быть получены путем обучения сети на широком спектре наборов данных.

Однако разработчики из исследовательского центра Samsung в Москве разработали новую модель искусственного интеллекта (ИИ), которая может создавать говорящие аватары из одного изображения. Хотя можно создать видеоклип из одного изображения, обучение его с помощью нескольких изображений позволяет лучше определить сохранность и повысить реализм.

Говорящие головы, созданные с помощью этой модели, могут работать в различных позах, в том числе в тех, которые выходят за рамки возможностей систем, основанных на деформации. Вы можете обнаружить некоторые визуальные сбои, но результаты намного впечатляют по сравнению с предыдущими методами. Модель приводит к созданию мультимедиа, которое в конечном итоге будет трудно отличить от реального видео.

Сложности

Создание реалистичных последовательностей говорящих аватаров затруднено в основном по двум причинам:

  1. Человеческие головы обладают высокой кинематической, геометрической и фотометрической сложностью. Необходимо точно моделировать волосы, глаза, полость рта и многие другие элементы.
  2. Острота зрения зрительной системы на крошечные ошибки в моделировании внешности головы человека.

Чтобы решить эти проблемы, новая модель искусственного интеллекта создает три нейронные сети в процессе обучения. Он создает встроенную сеть, которая соединяет рамки ориентиров на лицах с векторами. Затем он строит сеть генераторов, чтобы нанести ориентиры на синтезированные клипы. На последнем этапе дискриминаторная сеть оценивает позу и реалистичность кадров.

Ссылка:arXiv:1905.08233 | YouTube

Чтобы лучше понимать ориентиры и движения лиц, исследователи обучили сети на тысячах видеороликов YouTube, в которых люди разговаривают. Затем результаты (говорящие головы) сравнивались с альтернативными нейронными сетями посредством количественных измерений.

Результаты

Команда применила эту модель к изображениям многих популярных фигур, таких как Мона Лиза, Леонардо да Винчи и Альберт Эйнштейн. ИИ смог создать говорящие видеоролики из одного изображения, воплотив в жизнь классические портреты. Для создания видео требуется всего одна фотография. Тем не менее, модель, обученная на 32 изображениях, может достичь более высокого балла персонализации и идеального реализма.

Этот тип ИИ может иметь несколько практических применений в телеприсутствии, включая многопользовательские игры, видеоконференции, а также в индустрии спецэффектов.

Прочтите:IBM разрабатывает искусственный интеллект, который распознает сцену в видео

С другой стороны, быстрое развитие таких методов может повысить риски дезинформации, выдачи себя за другое лицо, мошенничества и фальсификации результатов выборов.


Промышленные технологии

  1. Могут ли специалисты по облачным вычислениям работать из дома
  2. Как IIoT может спровоцировать нарушение бизнес-модели
  3. Искусственный интеллект может генерировать речь на основе нейронной активности
  4. Новый ИИ Google может создавать видео только с начальным и конечным кадрами
  5. Чему цепочки поставок могут поучиться у военных планировщиков во время кризиса
  6. Как автоматизация заказов на продажу может обеспечить стабильность во время пандемии
  7. Пять уроков по цепочке поставок, которые больницы могут извлечь из COVID-19
  8. Можно ли спасти цепочки поставок в США от кибератак?
  9. Преимущества Интернета вещей для логистики
  10. Как производители могут извлечь выгоду из внедрения 5G