Модель с автоматическим управлением преодолевает сложную дорожную проблему:узкие улицы

Предположим, два автомобиля едут прямо друг на друга по улице с односторонним движением.

Если вы находитесь за рулем в такой напряженной, сложной ситуации вождения, вы можете вести переговоры с соседними сторонами. Вы можете съехать на обочину, а затем подать сигнал водителю впереди, чтобы он проехал по узкой полосе. Взаимодействуя, вы можете придумать маневры, которые обеспечат безопасность всех и путь к месту назначения.

Беспилотный автомобиль сталкивается с более сложной задачей и должен каким-то образом понимать находящихся рядом водителей и их готовность вести себя хорошо.

Новый алгоритм, находящийся в стадии разработки, может направить автономный автомобиль в пробки на узкой многолюдной улице.

Алгоритм, созданный исследователями из Центра исследования искусственного интеллекта Арго Университета Карнеги-Меллона для исследования автономных транспортных средств , принимает решения, моделируя разные уровни сотрудничества водителей — насколько вероятно, что водитель остановится, чтобы пропустить другого водителя.

С помощью «Multi-Agent Reinforcement Learning» или MARL команда под руководством исследователя Кристофа Киллинга получила автономные транспортные средства, демонстрирующие поведение, подобное человеческому, включая защитное вождение и интерпретацию поведения других агентов — пока в симуляции.

Алгоритм не применялся к транспортным средствам в реальном мире, но результаты многообещающие благодаря системе вознаграждения модели.

«Мы поощряем взаимодействие, думая о безопасности», — сказал Киллинг, бывший приглашенный научный сотрудник Института робототехники Школы компьютерных наук и теперь часть Лаборатории автономных воздушных систем Мюнхенского технического университета.

В коротких вопросах и ответах с Tech Briefs ниже Кристоф подробно рассказывает о том, как основанная на стимулах модель его команды позволяет ориентироваться в сложных дорожных ситуациях, когда нет официальных правил дорожного движения.

Технические обзоры: Как бы вы охарактеризовали свою модель как более совместную или агрессивную при решении задач, требующих и того, и другого?

Кристоф Киллинг: Как и в любом сценарии вождения, автономные транспортные средства должны ставить безопасность на первое место и соблюдать все правила дорожного движения. Однако — и в этом красота и сложность рассматриваемого сценария — в таком сценарии не существует координирующих правил дорожного движения (в отличие, например, от перекрестков с 4-мя остановками). Два транспортных средства с равными правами проезда должны договориться, кто едет первым, а кто ждет.

Если оба автомобиля сосредоточены исключительно на безопасности, они оба остановятся. Ключевая проблема, с которой мы столкнулись в ходе нашего исследования, заключалась в следующем:как заставить одну машину остановиться и поехать — не заставить обе машины остановиться, не заставить обе машины ехать, когда каждый принимает свои собственные решения без какой-либо координирующей инстанции.

Мы поощряем взаимодействие с учетом безопасности; сбой на скорости хуже, чем тайм-аут, но тайм-ауты также приводят к небольшому штрафу, чтобы стимулировать агентов учиться взаимодействовать и проходить мимо друг друга.

Технические обзоры :Какие основные параметры используются вашей моделью для выполнения диска? На каких критериях алгоритм основывает свои решения?

Кристоф Киллинг :Наш алгоритм воспринимает то, что было бы доступно на реальном автомобиле. У нас есть измерения расстояния и относительной скорости вокруг передней части автомобиля (см. рис. 2 в отчете здесь ). Примечательно, что по сравнению с родственной работой мы используем не взгляд с высоты птичьего полета на сценарий, а эгоцентрическую перспективу. Это немного усложняет задачу, поскольку теперь у нас есть слепые зоны. Это наблюдение дополняется дополнительными параметрами, такими как упомянутое выше сотрудничество, чтобы сообщить агенту, насколько агрессивно себя вести, а также текущий угол поворота рулевого колеса и положение дроссельной заслонки (о которых вы также должны знать, управляя автомобилем в этом сценарии).

Технические обзоры :Что еще сложно сделать, чтобы алгоритм работал правильно?

Кристоф Киллинг :Есть две основные проблемы:чрезмерно агрессивные пары и чрезмерно пассивные пары. (Сравните визуализации здесь .) Примечательно, что наши политики в большинстве случаев способны согласовать сценарий. Тем не менее, люди-пассажиры могут быть весьма недовольны тем, что их автомобили выполняют некоторые из показанных здесь маневров .

Технические обзоры :Что делает алгоритм, когда становится ясно, что встречный водитель ведет себя агрессивно, «плохо»? Или слишком «сговорчивый» водитель?

Кристоф Киллинг :мы проверяем нашу политику вождения, присваивая значение кооперативности каждому транспортному средству, сообщая ему, насколько агрессивно себя вести. Каждый знает только о своей кооперативности, а не о машине противника. Эти ценности кооперативности довольно прямолинейно переводятся в поведение вождения:водитель, отказывающийся от сотрудничества, заинтересован только в собственном прогрессе. Высоко склонный к сотрудничеству водитель не имеет значения, какое транспортное средство проедет первым, пока кто-то едет. Эти значения фиксируются на протяжении всего взаимодействия.

(Мы не считаем «выйти из себя». Я не собираюсь здесь углубляться, но давайте просто остановимся на «по математическим соображениям».)

Технические обзоры :Требует ли часть модели своего рода "чтение" противостоящего водителя?

Кристоф Киллинг :Слово о «чтении»:в робототехнике мы различаем состояние мира (то есть планету Земля, как она есть прямо сейчас) и наблюдение. В наших автомобилях нет модуля памяти. Итак, как нам быть с вещами, которых мы не видим в данный момент?

Больше беспилотных автомобилей в технической документации

Система предупреждения для беспилотных автомобилей учится на ошибках.

Программное обеспечение Мюнхенского технического университета обеспечивает безопасность беспилотных автомобилей.

Допустим, например, что вы разговариваете с кем-то по Zoom. Вы воспринимаете, так сказать, частичное наблюдение за планетой Земля. Другая сторона берет кофейную кружку из-за пределов поля зрения своей камеры, делает глоток и ставит ее обратно за пределы поля зрения своей камеры. Если вы примете во внимание только самое последнее наблюдение, которое вы сделали после того, как кружку поставили на стол и вас спросили, что они пьют, вы просто не знаете (потому что памяти нет). Тем не менее, если вы сложите вместе (мы называем это «конкатенацией») несколько наблюдений за последние секунды, вы сможете сделать вывод о состоянии мира, поскольку затем увидите, как кружка перемещается на протяжении нескольких кадров. Основываясь на том, как быстро они двигаются, вы можете даже сказать что-то об их настроении.

Точно так же в нашем сценарии каждый автомобиль знает другого агента только на основании того, что он может наблюдать из пространства наблюдения (показанного на рис. 2 в статье