ИИ теперь может перемещаться по незнакомой среде без карты

Исследователи из Facebook AI разрабатывают новый алгоритм обучения с подкреплением под названием DD-PPO.
Он может перемещаться в сложных условиях, используя только данные компаса, камеру RGB-D и GPS.

Разработка интеллектуальных машин, которые умно взаимодействуют с физическим миром, была долгосрочной целью сообщества ИИ. Основная задача - научить эти машины эффективно перемещаться по сложной, незнакомой среде без использования карты.

Обычно карты реального мира устаревают в течение нескольких месяцев, так как здания и сооружения меняются, а объекты перемещаются. Вот почему совершенно необходимо создать искусственный интеллект для физического мира, который может перемещаться без карты.

Помня об этом, исследователи из Facebook AI разработали новый алгоритм обучения с подкреплением (RL), который эффективно решает задачу навигации от точки к цели, используя только данные компаса, камеру RGB-D и GPS. Этот крупномасштабный алгоритм называется DD-PPO (децентрализованная распределенная проксимальная оптимизация политики).

Новая распределенная архитектура RL хорошо масштабируется

В настоящее время системы на основе машинного обучения способны превосходить людей-экспертов в различных сложных играх. Но поскольку эти системы опираются на огромный объем обучающих выборок, их невозможно построить без крупномасштабного распределенного распараллеливания.

Текущая распределенная архитектура обучения с подкреплением, включающая тысячи рабочих (процессоров) и сервер с одним параметром, плохо масштабируется. Вот почему исследователи предложили метод синхронного распределенного обучения с подкреплением.

DD-PPO работает на нескольких машинах и не имеет сервера параметров. Каждый рабочий (ЦП) попеременно собирает опыт в ресурсоемкой симулированной среде с ускорением на GPU и оптимизирует модель. В явном состоянии связи все рабочие синхронизируют свои обновления с моделью. Другими словами, распределение синхронное.

Все рабочие моделируют агента, выполняющего навигацию по точкам, а затем оптимизируют модель и синхронизируют свои обновления | Вот как данные передаются во время обучения с DD-PPO

Используя этот подход, DD-PPO продемонстрировал почти линейное масштабирование:он смог достичь ускорения в 107 раз на 128 графических процессорах по сравнению с последовательной реализацией.

Ссылка:arXiv:1911.00357 | Facebook AI

Практически идеальная навигация по точке и цели

При навигации по точке-цели агент устанавливается в произвольную начальную позицию / ориентацию в незнакомой среде и получает задание перейти к координатам цели без использования какой-либо карты. Он может использовать только компас, GPS и камеру RGB или RGB-D.

Исследователи воспользовались функцией масштабирования DD-PPO для обучения агента на 2,5 миллиарда шагов, что эквивалентно 80-летнему опыту человека. Вместо месяцев обучение было завершено менее чем за три дня с использованием 64 графических процессоров.

Результаты показали, что 90% максимальной производительности было получено за первые 100 миллионов шагов с меньшими вычислительными ресурсами (8 графических процессоров). Имея миллиарды шагов опыта, агент достигает 99,9% успеха. Напротив, в предыдущих системах показатель успеха составлял 92%.

Агент возвращается назад после выбора неправильного пути для достижения своей целевой позиции | Предоставлено исследователями

Приложения

Эти агенты ИИ могут помогать людям в физическом мире. Например, они могут показывать релевантную информацию пользователям в очках дополненной реальности, роботы могут извлекать предметы со стола наверху, а системы на базе искусственного интеллекта могут помочь людям с нарушениями зрения.

Модели, построенные в этом исследовании, могут работать в обычных условиях, например в лабораториях и офисных зданиях, где дополнительные точки данных (карты и данные GPS) недоступны.

Читайте:Facebook разрабатывает искусственный интеллект, способный с беспрецедентной точностью копировать любой голос

Хотя модель превосходит предварительно обученные сверточные нейронные сети ImageNet и может служить универсальным ресурсом, еще многое предстоит сделать для разработки систем, которые учатся ориентироваться в сложных средах. В настоящее время исследователи изучают новые подходы к реализации точечной навигации только с использованием RGB.

Новый алгоритм плавно смешивает любые два аудиосигнала Самый быстрый в мире вращающийся объект вращается со скоростью 300 миллиардов оборотов в минуту

Промышленные технологии

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии