MIT-Wissenschaftler veröffentlichen fotorealistischen Open-Source-Simulator für autonomes Fahren

Startseite » MIT-Wissenschaftler veröffentlichen fotorealistischen Open-Source-Simulator für autonomes Fahren
MIT-Wissenschaftler veröffentlichen fotorealistischen Open-Source-Simulator für autonomes Fahren

VISTA 2.0 Open-Source Simulation Engine

VISTA 2.0 is an open-source simulation engine that can make realistic environments for training and testing self-driving cars. Credit: Image courtesy of MIT CSAIL

With this in mind, scientists from MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) created “VISTA 2.0,” a data-driven simulation engine where vehicles can learn to drive in the real world and recover from near-crash scenarios. What’s more, all of the code is being released open-source to the public.

“Today, only companies have software like the type of simulation environments and capabilities of VISTA 2.0, and this software is proprietary. With this release, the research community will have access to a powerful new tool for accelerating the research and development of adaptive robust control for autonomous driving,” says the senior author of a paper about the research, MIT Professor and CSAIL Director Daniela Rus.


VISTA ist ein datengetriebener, fotorealistischer Simulator für autonomes Fahren. Es kann nicht nur Live-Video, sondern auch LiDAR-Daten und Ereigniskameras simulieren und auch andere simulierte Fahrzeuge integrieren, um komplexe Fahrsituationen zu modellieren. VISTA ist Open Source und der Code ist unten zu finden.

VISTA 2.0, das auf dem Vorgängermodell des Teams, VISTA, aufbaut, unterscheidet sich grundlegend von bestehenden AV-Simulatoren, da es datengesteuert ist. Das heißt, es wurde aus realen Daten gebaut und fotorealistisch gerendert – und ermöglicht so den direkten Transfer in die Realität. Während die anfängliche Iteration nur die Verfolgung einzelner Autospuren mit einem Kamerasensor unterstützte, erforderte das Erreichen einer datengesteuerten Simulation mit hoher Wiedergabetreue ein Überdenken der Grundlagen, wie verschiedene Sensoren und Verhaltensinteraktionen synthetisiert werden können.

Geben Sie VISTA 2.0 ein: ein datengesteuertes System, das komplexe Sensortypen und massiv interaktive Szenarien und Kreuzungen in großem Maßstab simulieren kann. Mit viel weniger Daten als bei früheren Modellen war das Team in der Lage, autonome Fahrzeuge zu trainieren, die wesentlich robuster sein könnten als solche, die mit großen Mengen realer Daten trainiert wurden.

„Dies ist ein gewaltiger Sprung in den Fähigkeiten der datengesteuerten Simulation für autonome Fahrzeuge sowie die Erhöhung des Umfangs und der Fähigkeit, mit größerer Fahrkomplexität umzugehen“, sagt Alexander Amini, CSAIL-Doktorand und Co-Hauptautor von zwei neuen Artikeln. zusammen mit seinem Doktorandenkollegen Tsun-Hsuan Wang. „VISTA 2.0 demonstriert die Fähigkeit, Sensordaten weit über 2D-RGB-Kameras hinaus zu simulieren, aber auch extrem hochdimensionale 3D-Lidars mit Millionen von Punkten, unregelmäßig getaktete ereignisbasierte Kameras und sogar interaktive und dynamische Szenarien mit anderen Fahrzeugen.“

Das Wissenschaftlerteam konnte die Komplexität der interaktiven Fahraufgaben für Dinge wie Überholen, Folgen und Verhandeln skalieren, einschließlich Multiagenten-Szenarien in hoch fotorealistischen Umgebungen.

Da die meisten unserer Daten (glücklicherweise) nur 08/15-Alltagsfahrten sind, beinhaltet das Training von KI-Modellen für autonome Fahrzeuge schwer zu sicherndes Futter für verschiedene Arten von Randfällen und seltsame, gefährliche Szenarien. Logischerweise können wir nicht einfach in andere Autos krachen, nur um einem neuronalen Netzwerk beizubringen, nicht in andere Autos zu krachen.

In letzter Zeit hat es eine Verlagerung von klassischeren, von Menschen entworfenen Simulationsumgebungen zu solchen gegeben, die aus realen Daten aufgebaut sind. Letztere haben einen immensen Fotorealismus, aber erstere können problemlos virtuelle Kameras und Lidars modellieren. Mit diesem Paradigmenwechsel ist eine Schlüsselfrage aufgetaucht: Können der Reichtum und die Komplexität aller Sensoren, die autonome Fahrzeuge benötigen, wie z. B. Lidar und ereignisbasierte Kameras, die spärlicher sind, genau synthetisiert werden?

Lidar-Sensordaten sind in einer datengesteuerten Welt viel schwieriger zu interpretieren – Sie versuchen effektiv, brandneue 3D-Punktwolken mit Millionen von Punkten zu generieren, nur aus spärlichen Ansichten der Welt. Um 3D-Lidar-Punktwolken zu synthetisieren, verwendeten die Forscher die vom Auto gesammelten Daten, projizierten sie in einen 3D-Raum, der aus den Lidar-Daten stammt, und ließen dann ein neues virtuelles Fahrzeug lokal von dort aus herumfahren, wo sich das ursprüngliche Fahrzeug befand. Schließlich projizierten sie all diese sensorischen Informationen mit Hilfe neuronaler Netze zurück in das Sichtfeld dieses neuen virtuellen Fahrzeugs.

Zusammen mit der Simulation ereignisbasierter Kameras, die mit Geschwindigkeiten von mehr als Tausend Ereignissen pro Sekunde arbeiten, war der Simulator in der Lage, diese multimodalen Informationen nicht nur zu simulieren, sondern auch in Echtzeit. Damit ist es möglich, neuronale Netze offline zu trainieren, aber auch online am Auto in Augmented-Reality-Setups für sichere Auswertungen zu testen. „Die Frage, ob eine Multisensor-Simulation in diesem Ausmaß an Komplexität und Fotorealismus im Bereich der datengesteuerten Simulation möglich wäre, war eine sehr offene Frage“, sagt Amini.

Damit wird die Fahrschule zur Party. In der Simulation können Sie sich bewegen, verschiedene Arten von Controllern haben, verschiedene Arten von Ereignissen simulieren, interaktive Szenarien erstellen und einfach brandneue Fahrzeuge einsetzen, die nicht einmal in den Originaldaten enthalten waren. Sie testeten auf Spurfolge, Spurwechsel, Autofolge und brenzligere Szenarien wie statisches und dynamisches Überholen (Hindernisse sehen und herumfahren, damit Sie nicht kollidieren). Mit der Multi-Agentur interagieren sowohl echte als auch simulierte Agenten, und neue Agenten können in die Szene eingefügt und auf beliebige Weise gesteuert werden.

Als das Team mit seinem maßstabsgetreuen Auto in die „Wildnis“ – auch bekannt als Devens, Massachusetts – fuhr, sah es die sofortige Übertragbarkeit der Ergebnisse, sowohl bei Misserfolgen als auch bei Erfolgen. Sie konnten auch das große Zauberwort selbstfahrender Automodelle demonstrieren: „robust“. Sie zeigten, dass AVs, die vollständig in VISTA 2.0 trainiert wurden, in der realen Welt so robust waren, dass sie mit dieser schwer fassbaren Folge herausfordernder Fehler umgehen konnten.

Nun, eine Leitplanke, auf die sich Menschen verlassen und die noch nicht simuliert werden kann, sind menschliche Emotionen. Das freundliche Winken, Nicken oder der blinkende Bestätigungsschalter sind die Art von Nuancen, die das Team in der zukünftigen Arbeit implementieren möchte.

„Der zentrale Algorithmus dieser Forschung ist, wie wir aus einem Datensatz eine vollständig synthetische Welt für Lernen und Autonomie aufbauen können“, sagt Amini. „Es ist eine Plattform, von der ich glaube, dass sie sich eines Tages in vielen verschiedenen Achsen über die Robotik erstrecken könnte. Nicht nur das autonome Fahren, sondern viele Bereiche, die auf Visionen und komplexe Verhaltensweisen angewiesen sind. Wir freuen uns, VISTA 2.0 zu veröffentlichen, um der Community zu helfen, ihre eigenen Datensätze zu sammeln und sie in virtuelle Welten umzuwandeln, in denen sie ihre eigenen virtuellen autonomen Fahrzeuge direkt simulieren, auf diesen virtuellen Terrains fahren, autonome Fahrzeuge in diesen Welten trainieren und dann können sie direkt auf vollwertige, echte selbstfahrende Autos übertragen.“

Referenz: „VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and Policy Learning for Autonomous Vehicles“ von Alexander Amini, Tsun-Hsuan Wang, Igor Gilitschenski, Wilko Schwarting, Zhijian Liu, Song Han, Sertac Karaman und Daniela Rus, 23. November 2021, Informatik > Robotik.
arXiv:2111.12083

Amini und Wang schrieben die Arbeit zusammen mit Zhijian Liu, einem MIT CSAIL-Doktoranden; Igor Gilichensky, Assistenzprofessor für Informatik an der University of Toronto; Wilko Schwarting, KI-Forscher und MIT CSAIL PhD ’20; Song Han, außerordentlicher Professor am Department of Electrical Engineering and Computer Science des MIT; Sertac Karaman, außerordentlicher Professor für Luft- und Raumfahrt am MIT; und Daniela Rus, MIT-Professorin und CSAIL-Direktorin. Die Forscher stellten die Arbeit auf der IEEE International Conference on Robotics and Automation (ICRA) in Philadelphia vor.

Diese Arbeit wurde von der National Science Foundation und dem Toyota Research Institute unterstützt. Das Team erkennt die Unterstützung von NVIDIA mit der Spende des Drive AGX Pegasus an.