Искусственный интеллект Google обеспечивает отслеживание объектов посредством раскрашивания видео — самоконтролируемый подход

Новая сверточная сеть учится копировать цвета из одного опорного кадра в последующие кадры.
При этом он может следовать за различными объектами и преодолевать препятствия.
Он также может отслеживать позы людей.

Научить машины отслеживать объекты на видео — одна из самых сложных задач в компьютерном зрении, главным образом потому, что для отслеживания требуется огромный размеченный набор обучающих данных. Конечно, записывать и маркировать все, что происходит на Земле, было бы непрактично.

Вот почему необходимо создать систему, которая научится отслеживать без человеческого контроля, а не использовать огромное количество сырых, немаркированных клипов. Почему это так важно, спросите вы? Что ж, отслеживание объектов в видео может быть полезно для множества приложений, таких как взаимодействие объектов, распознавание действий, стилизация видео и многое другое.

Теперь исследователи из Google разработали сверточную сеть, которая учится копировать цвета из одной системы отсчета. Вместо того, чтобы пытаться оценить цвета непосредственно по кадру в оттенках серого, модель вынуждена использовать цвета первого опорного кадра видео.

Чтобы копировать правильные цвета, сети необходимо научиться внутренне указывать на нужный регион. Эта новая модель может следовать за различными объектами и отслеживать окклюзии без необходимости обучения на больших наборах размеченных данных.

Видео о перекрашивании

Чтобы разработать эту систему искусственного интеллекта, исследователи использовали временную когерентность цвета, которая предлагает огромные обучающие данные для обучения сверточной сети отслеживанию определенных частей видео. Бывают исключительные случаи, когда цвет не является согласованным во времени, например, мгновенное включение света. Однако в целом цвета остаются стабильными с течением времени.

Прогнозируемые цвета на основе раскрашенной ссылки на один кадр | Кредит:Google

Сначала видео обесцвечивается, а затем сеть выполняет этапы раскрашивания, поскольку сцена может содержать разные объекты одного цвета. Благодаря этому машина может научиться отслеживать определенные регионы или объекты.

Обучение

Исследователи использовали набор данных Kinetics (содержит полмиллиона видеоклипов, изображающих повседневную деятельность) для обучения своей модели. Они преобразовали все видеокадры, за исключением первого, в оттенки серого и научили сеть оценивать правильные цвета в следующих кадрах.

Чтобы скопировать исходные цвета из одного кадра, сверточная сеть научилась внутренне указывать на правильные цвета. Это заставило сеть следовать явному механизму, который можно использовать для отслеживания объектов.

Сеть отслеживает объект без присмотра | Кредит:Google

Несмотря на то, что модель не обучена четким идентификаторам, она учится отслеживать любой объект или визуальную часть видео, используя только один (первый) кадр. Он может отслеживать одну точку или контурный объект на видео.

Ссылка: arXiv:1806.09594 | Блог Google по искусственному интеллекту

Чтобы отслеживать объекты при раскрашивании видео, исследователи внесли только одно изменение:распространили метки, представляющие целевые области, а не распространяли цвета по всему клипу.

Отслеживание позы

Отслеживание движений человеческого скелета | Кредит:Google

Сеть также способна отслеживать позы людей:ей требуется исходный кадр, помеченный ключевыми точками, и она выполняет остальную работу. Однако предсказать ключевые точки в следующих кадрах не так просто, как кажется, поскольку вам необходимо иметь точную локализацию каждой ключевой точки, когда люди в видео подвергаются деформации.

Исследователи продемонстрировали функцию отслеживания позы сети на наборе данных JHMDB (полностью аннотированный набор данных о позах и действиях человека), где они отслеживали скелет суставов человека.

Сеть достигает производительности, аналогичной оптическому потоку, что указывает на то, что она может изучать некоторые особенности движения. Он учится отслеживать позы людей и фрагменты видео настолько хорошо, что немного превосходит новейшие методы, основанные на оптическом потоке.

Читайте:Искусственный интеллект Google может создавать короткие видеоклипы из двух фотографий

Модель еще не идеальна. В некоторых экспериментах не удавалось раскрашивать видео и отслеживать сегменты. Поэтому исследователи планируют и дальше совершенствовать процесс раскрашивания видео, что в конечном итоге может привести к улучшению самоконтролируемого отслеживания.

ИИ обнаруживает болезни, в том числе рак, по дыханию человека Искусственный интеллект управляет 3D-рендерингом волос в реальном времени с использованием 30 000 прядей

Промышленные технологии

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии