Skip to main content

Am 1. März gaben das Institut für Elektro- und Elektronikingenieure IEEE und die Konferenz zu Computervision und Mustererkennung CVPR 2022 die Liste der angenommenen Abhandlungen bekannt. Dabei ist auch ein Forschungsbeitrag des Autowise.ai-Hong Kong University of Science and Technology Joint Laboratory mit dem Titel Exploring Geometry Consistency for Monocular 3D Object Detection.

Der Schwerpunkt der Abhandlung Exploring Geometry Consistency for Monocular 3D Object Detection liegt auf der monokularen Erkennung von 3D-Objekten. Die monokulare 3D-Erkennung zielt darauf ab, allein mithilfe von monokularen zweidimensionalen (2D) Bildern dreidimensionale (3D) Hindernisse zu erkennen. Aufgrund der Schwierigkeit, die akkurate Tiefe aus Bildern abzuleiten, ist die monokulare Erkennung von 3D-Objekten eine schlecht gestellte und herausfordernde Aufgabe. Analysiert wird in der Forschungsarbeit zunächst wie vorhandene monokulare 3D-Erkennungsmethoden visuelle Hinweise nutzen, um die Position eines Hindernisses zu bestimmen. Dann werden zur Verbesserung der Robustheit Datenerweiterungsmethoden vorgeschlagen.

In der obigen Abbildung ist dargestellt, wie neuronale Netze visuelle Hinweise nutzen können. Das kann zum Beispiel die scheinbare Größe eines Objekts im Bild sein oder seine vertikale Ausrichtung (je näher ein Objekt ist, desto größer und weiter unten im Bild erscheint es im). Durch Anwendung verschiedener Bildstörungen entdeckten die Forscher, dass neuronale Netze dazu tendieren, Tiefe anhand der Größeninformationen eines Objektes abzuschätzen, dabei ist allerdings das Netz nicht robust genug, um diese Informationen zu nutzen (siehe Abbildung unten):

Motiviert durch die Analyse entwickelte das Forschungsteam vier verschiedene Ebenen der Datenerweiterungsmethoden, um damit zusätzliche Trainingsdaten zu generieren. Dadurch dass die geometrische Konsistenz vor und nach der Bildstörung sichergestellt wurde, konnten die generierten Trainingsdaten die Robustheit des neuronalen Netzes gegenüber visuellen Hinweisen wirksam stärken. Im Feld der monokularen 3D-Erkennung sind nach bestem Wissen der Forscher bisher keine entsprechenden Datenerweiterungsmethoden vorgeschlagen worden. In ausführlichen Experimenten, die mit den Datensets Kitti und nuScenes durchgeführt wurden, hat sich die Wirksamkeit der vorgeschlagenen Datenerweiterungsmethoden gezeigt.

Das Autowise.ai-Hong Kong University of Science and Technology Joint Laboratory, ist eine Gemeinschaftsgründung von Autowise.ai und der Hong Kong University of Science and Technology, die sich zum Ziel gesetzt hat, die beiderseitigen Stärken einzubringen. Gemeinsam vorangebracht werden sollen die industrielle Umsetzung von Technologien des maschinellen Lernens und die Entwicklung innovativer Anwendungen zur Verbesserung der Umwelthygiene auf autonome Weise. Geleitet wird das gemeinsame Forschungslabor von Prof. Tong ZHANG, eine international anerkannte Koryphäe auf dem Gebiet des maschinellen Lernens. Prof. ZHANG hat derzeit an der Hong Kong University of Science and Technology den Lehrstuhl für Informatik und Computertechnik sowie Mathematik inne. Vor seiner akademischen Tätigkeit arbeitete er unter anderem als leitender Wissenschaftler beim Yahoo Research Institute, bei Baidu als Vice President und Direktor des Big Data Lab und bei Tencent als Direktor des AI Lab. Prof. ZHANG ist zudem ASA Fellow, IEEE Fellow, und hat bei wichtigen internationalen Konferenzen zum maschinellen Lernen wie NIPS, ICML, COLT als Vorsitzender oder regionaler Vorsitzender fungiert. Er ist Mitherausgeber führender Fachzeitschriften zur künstlichen Intelligenz wie PAMI, JMLR, und Machine Learning Journal.

Online-Meeting zwischen Herrn Huang Chao, CEO von Autowise.ai, und Professor Zhang Tong, Leiter des Joint Laboratory.

Prof. ZHANG erklärt, dass monokulare Kameras als Wahrnehmungskomponente beim autonomen Fahren wichtiger werden. Forschung zu diesem Thema trifft deshalb seit ein paar Jahren sowohl im akademischen Bereich als auch in der Industrie auf breites Interesse. Im Vergleich zur Lidar-Technologie liefern monokulare Bilder nicht genügend akkurate Tiefeninformationen. 3D-Erkennung auf der Grundlage von monokularen Bildern ist deshalb eine äußerst schwierige Aufgabe. Auf der Grundlage der Hypothese, „die dreidimensionalen geometrischen Eigenschaften desselben Hindernisses sollten zwischen verschiedenen Ansichten konsistent sein“, setzte sich das Joint Laboratory mit der Entwicklung von Datenerweiterungsmethoden für die monokulare 3D-Erkennung, durch die eine deutliche Verbesserung erreicht wurde, an die Spitze. Diese Erkenntnisse zur geometrischen Konsistenz sind richtungsweisend für weitere Forschungen zur Verbesserung der Wahrnehmungsleistung bei monokularen Bildern. Die Forschungspartner werden verwandte Technologien auf weitere Anwendungsfelder ausweiten. So wollen sie beispielsweise an innovativen Anwendungen der geometrischen Konsistenz bei Mehrfachansichtsdaten forschen und die Umsetzung technologischer Forschung in der Industrie vorantreiben.