Skip to main content

3月1日,计算机视觉顶会IEEE计算机视觉及模式识别大会CVPR 2022公布了接收的论文名单。Autowise.ai-香港科技大学联合实验室题为Exploring Geometry Consistency for monocular 3D object detection的研究工作被本届大会接收。
Autowise.ai-香港科技大学联合实验室由仙途智能Autowise.ai与香港科技大学联合创办,旨在充分发挥双方优势,共同推动机器学习技术在无人环卫领域的工业化落地与创新应用。机器学习领域的国际知名学者张潼教授担任实验室主任。张潼教授现为香港科技大学数学系和计算机系chair professor,曾任雅虎研究院主任科学家、百度研究院副院长和大数据实验室负责人、腾讯AI Lab主任。他还是ASA fellow、IEEE fellow,并担任NIPS、ICML、COLT等国际顶级机器学习会议主席或领域主席,以及PAMI、JMLR和Machine Learning Journal等国际一流人工智能期刊编委。

Autowise.ai CEO黄超先生与张潼教授在联合实验室的线上会议

什么是CVPR?

CVPR(IEEE Conference on Computer Vision and Pattern Recognition-国际计算机视觉与模式识别会议)是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术,它与ICCV(国际计算机视觉大会)和ECCV(欧洲计算机视觉国际会议)被并称为世界三大顶级计算机视觉会议。在谷歌学术公布的2021年最新的学术期刊/会议影响力排名中,CVPR在整个计算机学科所有期刊/会议总榜中排名第4位。据悉,今年CVPR共收到8186篇投稿,接收论文2067篇,接收率是25.33%。

论文Exploring Geometry Consistency for monocular 3D object detection,聚焦单目3D检测任务。单目3D检测任务目的是通过2D的单目图像检测出3D的障碍物,从而帮助无人车感知周围环境。任务的难点在于如何准确地从2D图像中恢复3D障碍物的位置信息。研究工作首先分析现有的单目3D检测方法是如何利用visual cues去定位障碍物,并对应提出能够增强当前方法鲁棒性的数据增广技术。

如上图所示,神经网络可以利用的visual cues包括物体在图片中的大小,和它在图片的垂直方向位置(越近的物体,在图片上越大,也更倾向于在图片下半部分)。研究人员通过生成各种扰动的图片发现:神经网络倾向于使用物体的大小信息去预测深度,但是网络对这部分信息的利用并不足够鲁棒(如下图):

对此,研究人员设计了四种不同级别的数据增广方法,来生成额外的训练数据。通过保证图片扰动前后的几何一致性,这些生成的训练数据能有效增强神经网络对相关visual cues的鲁棒性。据研究人员介绍,目前单目3D检测领域还没有相关的数据增广技术。基于这些数据增广方法,单目3D检测模型在数据集kitti和nuScene上的性能得到有效的提升。同时,这些增广方法在domain adaptation 和semi-supervised training领域的应用前景也得到了验证。

联合实验室主任张潼教授表示:单目相机在无人驾驶感知模块中扮演着愈加重要的角色,相关的研究近年来也逐渐受到学术界和工业界的广泛关注。相比于激光雷达,单目图像由于缺少准确的深度信息,导致基于单目图像的3D感知任务变得极为困难。联合实验室的这项工作以“相同障碍物在不同图像之间3D几何特性应保持一致”为前提,率先设计出针对单目3D检测任务的数据增广方法,取得了显著的提升。进一步,对几何一致性的挖掘将会是提升单目图像的感知性能的重要研究方向,双方将把相关技术拓展到更多的应用场景,比如,共同探究几何一致性在多视角数据中的创新应用,推动学术研究的工业落地。