ИИ теперь может перемещаться по незнакомой среде без карты
- Исследователи из Facebook AI разрабатывают новый алгоритм обучения с подкреплением под названием DD-PPO.
- Он может перемещаться в сложных условиях, используя только данные компаса, камеру RGB-D и GPS.
Разработка интеллектуальных машин, которые умно взаимодействуют с физическим миром, была долгосрочной целью сообщества ИИ. Основная задача - научить эти машины эффективно перемещаться по сложной, незнакомой среде без использования карты.
Обычно карты реального мира устаревают в течение нескольких месяцев, так как здания и сооружения меняются, а объекты перемещаются. Вот почему совершенно необходимо создать искусственный интеллект для физического мира, который может перемещаться без карты.
Помня об этом, исследователи из Facebook AI разработали новый алгоритм обучения с подкреплением (RL), который эффективно решает задачу навигации от точки к цели, используя только данные компаса, камеру RGB-D и GPS. Этот крупномасштабный алгоритм называется DD-PPO (децентрализованная распределенная проксимальная оптимизация политики).
Новая распределенная архитектура RL хорошо масштабируется
В настоящее время системы на основе машинного обучения способны превосходить людей-экспертов в различных сложных играх. Но поскольку эти системы опираются на огромный объем обучающих выборок, их невозможно построить без крупномасштабного распределенного распараллеливания.
Текущая распределенная архитектура обучения с подкреплением, включающая тысячи рабочих (процессоров) и сервер с одним параметром, плохо масштабируется. Вот почему исследователи предложили метод синхронного распределенного обучения с подкреплением.
DD-PPO работает на нескольких машинах и не имеет сервера параметров. Каждый рабочий (ЦП) попеременно собирает опыт в ресурсоемкой симулированной среде с ускорением на GPU и оптимизирует модель. В явном состоянии связи все рабочие синхронизируют свои обновления с моделью. Другими словами, распределение синхронное.
Все рабочие моделируют агента, выполняющего навигацию по точкам, а затем оптимизируют модель и синхронизируют свои обновления | Вот как данные передаются во время обучения с DD-PPO
Используя этот подход, DD-PPO продемонстрировал почти линейное масштабирование:он смог достичь ускорения в 107 раз на 128 графических процессорах по сравнению с последовательной реализацией.
Ссылка:arXiv:1911.00357 | Facebook AI
Практически идеальная навигация по точке и цели
При навигации по точке-цели агент устанавливается в произвольную начальную позицию / ориентацию в незнакомой среде и получает задание перейти к координатам цели без использования какой-либо карты. Он может использовать только компас, GPS и камеру RGB или RGB-D.
Исследователи воспользовались функцией масштабирования DD-PPO для обучения агента на 2,5 миллиарда шагов, что эквивалентно 80-летнему опыту человека. Вместо месяцев обучение было завершено менее чем за три дня с использованием 64 графических процессоров.
Результаты показали, что 90% максимальной производительности было получено за первые 100 миллионов шагов с меньшими вычислительными ресурсами (8 графических процессоров). Имея миллиарды шагов опыта, агент достигает 99,9% успеха. Напротив, в предыдущих системах показатель успеха составлял 92%.
Агент возвращается назад после выбора неправильного пути для достижения своей целевой позиции | Предоставлено исследователями
Приложения
Эти агенты ИИ могут помогать людям в физическом мире. Например, они могут показывать релевантную информацию пользователям в очках дополненной реальности, роботы могут извлекать предметы со стола наверху, а системы на базе искусственного интеллекта могут помочь людям с нарушениями зрения.
Модели, построенные в этом исследовании, могут работать в обычных условиях, например в лабораториях и офисных зданиях, где дополнительные точки данных (карты и данные GPS) недоступны.
Читайте:Facebook разрабатывает искусственный интеллект, способный с беспрецедентной точностью копировать любой голос
Хотя модель превосходит предварительно обученные сверточные нейронные сети ImageNet и может служить универсальным ресурсом, еще многое предстоит сделать для разработки систем, которые учатся ориентироваться в сложных средах. В настоящее время исследователи изучают новые подходы к реализации точечной навигации только с использованием RGB.
Промышленные технологии
- 5 вещей, без которых мы можем обойтись в производстве к 2025 году
- ИИ теперь может обнаруживать и наносить на карту неформальные поселения в мире
- Лазеры могут отправлять звуковые сообщения в ухо одному человеку без какого-либо получателя
- Лазеры теперь могут излучать микроволны и принимать внешние радиочастотные сигналы
- ИИ теперь может рассчитать трехмерную структуру любого белка
- ИИ может собрать кубик Рубика за секунды, без каких-либо конкретных знаний предметной области
- Очки теперь могут контролировать диабет через слезы
- ИИ теперь может составлять реалистичные, разнообразные танцевальные движения
- Как киберпреступники могут инициировать атаку через партнера по цепочке поставок
- Ускоряйтесь сейчас:обеспечение быстрой и постоянной ценности с помощью экосистемного подхода