​Система MIT обучает автомобили без водителей

-
17:55
92
​Система MIT обучает автомобили без водителей

Система имитационного моделирования, основанная на данных и разработанная в MIT в сотрудничестве с Научно-исследовательским институтом Тойота для обучения автомобилей без водителя, создает фотореалистичный мир с бесконечными возможностями рулевого управления, помогая автомобилям научиться ориентироваться во множестве худших сценариев перед тем, как отправиться в путешествие по реальным улицам.

Системы управления автономными автомобилями в значительной степени опираются на наборы реальных данных о траекториях движения, получаемых от водителей-людей. На основе этих данных они учатся эмулировать безопасное рулевое управление в различных ситуациях. Но реальные данные из опасных «краёв», например, при столкновении или вытеснении с дороги или на другую полосу движения, встречаются редко.

Некоторые имитационные двигатели стремятся имитировать эти ситуации, визуализируя детальные виртуальные дороги, чтобы помочь обучить контроллеров восстанавливаться. Но наука о контроле, полученная в результате моделирования, никогда не была доказана для перехода в реальность на полномасштабном транспортном средстве.

Исследователи MIT решили эту проблему с помощью фотореалистичного симулятора под названием Virtual Image Synthesis and Transformation for Autonomy (VISTA). В нем используется лишь небольшой набор данных, захваченный человеком, движущимся по дороге, для синтеза практически бесконечного числа новых точек зрения с траекторий, которые транспортное средство могло бы принять в реальном мире.

Контроллер награждается за расстояние, которое он проходит без сбоев, поэтому он должен научиться самостоятельно, как безопасно добраться до места назначения. При этом транспортное средство учится безопасно ориентироваться в любой ситуации, с которой оно сталкивается, в том числе восстанавливать контроль после поворота между полосами движения или восстанавливаться после близких столкновений.

Обучение и развертывание политик на основе имитационного моделирования, основанного на данных: На основе единой траектории, собранной человеком, имитатор, основанный на данных (VISTA), синтезирует пространство новых возможных траекторий для обучения политикам управления виртуальными агентами (A). Сохранение фотореализма реального мира позволяет виртуальному агенту выйти за рамки имитационного обучения и вместо этого исследовать пространство с помощью усиленного обучения, получая лишь незначительное вознаграждение. Изученные политики не только переходят непосредственно в реальный мир (B), но и превосходят современные комплексные методы, обученные с помощью обучения имитации. Амини и др.

В ходе тестов контроллер, обученный в симуляторе VISTA, смог безопасно разместиться на полноразмерном автомобиле без водителя и перемещаться по ранее невидимым улицам. При позиционировании автомобиля в условиях бездорожья, имитирующих различные ситуации вблизи места аварии, контроллер также смог за несколько секунд успешно вернуть автомобиль обратно на безопасную траекторию вождения. Документ с описанием системы с открытым доступом был опубликован в IEEE Robotics and Automation Letters и должен был быть представлен на предстоящей конференции ICRA 2020 — Международной конференции по робототехнике и автоматизации в мае. ICRA 2020 будет проведена не так, как это было изначально задумано в связи с пандемией.

Моделирование на основе данных. Исторически сложилось так, что создание двигателей имитационного моделирования для обучения и тестирования автономных транспортных средств было в основном ручной задачей. Компании и университеты часто нанимают группы художников и инженеров для создания эскизов виртуальных сред с точной дорожной разметкой, полосами движения и даже подробными листьями на деревьях. Некоторые двигатели могут также включать в себя физику взаимодействия автомобиля с окружающей средой, основанную на сложных математических моделях.

Но поскольку в сложных реальных условиях существует так много разных вещей, которые необходимо учитывать, практически невозможно все включить в симулятор. По этой причине, как правило, существует несоответствие между тем, что контроллеры изучают в симуляторе, и тем, как они работают в реальном мире.

Вместо этого MIT-исследователи создали так называемый «движок симуляции, управляемый данными», который синтезирует из реальных данных новые траектории, согласующиеся с внешним видом дороги, а также расстоянием и движением всех объектов на сцене.

Сначала они собирают видеоданные с человека, движущегося по нескольким дорогам, и подают их в движок. Для каждого кадра движок проецирует каждый пиксель в облако точек 3D. Затем они помещают виртуальное транспортное средство в этот мир. Когда транспортное средство подает команду на рулевое управление, двигатель синтезирует новую траекторию через облако точек на основе кривой рулевого управления, а также ориентации и скорости транспортного средства.

Затем, двигатель использует эту новую траекторию для создания фотореалистичной сцены. Для этого он использует конволюционную нейронную сеть, обычно используемую для задач обработки изображений, для оценки карты глубины, содержащей информацию о расстоянии до объектов с точки зрения контроллера. Затем она объединяет карту глубины с техникой, которая оценивает ориентацию камеры в 3D сцене. Все это помогает точно определить местоположение транспортного средства и относительное расстояние от всего, что находится внутри виртуального симулятора.

Основываясь на этой информации, он переориентирует исходные пиксели, чтобы воссоздать трехмерное изображение мира с новой точки зрения транспортного средства. Он также отслеживает движение пикселей, чтобы запечатлеть движение автомобилей и людей, а также других движущихся объектов на сцене.

Усиление обучения с нуля. Традиционно исследователи обучали автономные транспортные средства либо следуя определенным человеком правилам вождения, либо пытаясь подражать человеческим водителям. Но исследователи заставляют свой контроллер учиться полностью с нуля под «сквозным» каркасом, т.е. в качестве входных данных он принимает только необработанные данные датчиков — такие как визуальные наблюдения за дорогой — и на основе этих данных прогнозирует команды рулевого управления на выходе.

Для этого требуется «усиленное обучение» (RL), метод пробного и ошибочного обучения машине, который обеспечивает сигналы обратной связи всякий раз, когда автомобиль совершает ошибку. В исследовательском двигателе моделирования контроллер начинает с того, что ничего не знает о том, как ездить, как выглядят дорожные знаки или даже другие автомобили, поэтому он начинает выполнять произвольные углы рулевого управления. Он получает сигнал обратной связи только в случае аварии. В этот момент он телепортируется в новое смоделированное место и должен выполнить лучший набор углов рулевого управления, чтобы избежать столкновения снова. В течение 10-15 часов обучения он использует эти разреженные сигналы обратной связи, чтобы научиться преодолевать все большие и большие расстояния без аварий.

После успешного прохождения 10 000 километров в симуляции, авторы применяют изученный контроллер на своем полномасштабном автономном транспортном средстве в реальном мире. Исследователи говорят, что это первый раз, когда контроллер, обученный с помощью сквозного обучения в симуляторе, был успешно применен на полномасштабном автономном автомобиле.

Принудительное прохождение контроллера через все типы сценариев вождения позволило ему вернуть контроль из дезориентированных положений — например, оказаться на полпути к дороге или на другой полосе движения — и за несколько секунд вернуться на нужную полосу.

Далее исследователи надеются смоделировать все типы дорожных условий с одной траектории движения, например, ночь и день, а также солнечную и дождливую погоду. Они также надеются смоделировать более сложные взаимодействия с другими транспортными средствами на дороге.

RSS
Нет комментариев. Ваш будет первым!
Загрузка...