图像识别可以用于自动驾驶吗(弃超声雷达特斯拉官宣100纯视觉自动驾驶)

编辑:Aeneas 桃子【新智元导读】一心豪赌纯视觉方案的特斯拉,这次官宣把超声波雷达弃了。 山无棱,天地合,马斯克初心未改。 作为纯视觉一贯的忠实信徒,他近日宣布:特斯拉即将采用100%纯...

编辑:Aeneas 桃子

【新智元导读】一心豪赌纯视觉方案的特斯拉,这次官宣把超声波雷达弃了。

山无棱,天地合,马斯克初心未改。

作为纯视觉一贯的忠实信徒,他近日宣布:特斯拉即将采用100%纯视觉方案!

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

继2021年5月特斯拉弃用毫米波雷达后,这次连仅有的超声波雷达也扔掉了。

你如何看?

网友表示:不敢看,以后看见特斯拉就要躲远点。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

超声波雷达被弃了!

近日,特斯拉官方称,从10月开始,欧洲、北美、中东地区交付的Model 3、 Model Y将移除超声波雷达传感器(USS)。

并且将在全球推进Model 3、Model Y纯视觉方案。

与此同时,高端Model S、Model X在2023年也不再配备超声波雷达传感器。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

声明中,特斯拉解释了其视觉神经网络如何取代超声波雷达传感器。

随着USS被移除,特斯拉将会启动基于视觉Occupancy Network,目前仅能在FSD测试版中使用。

它能够实现Autopilot高清空间定位、更远距离可见性以及识别和区分对象的能力。

特斯拉还自信地表示,与配备雷达的车相比,采取纯视觉方案的Model 3和Model Y在美国和欧洲保持或提高了主动安全等级,并且在行人自动紧急制动(AEB)干预方面表现更好。

也就是说,特斯拉的纯视觉方案完全不输「视觉+雷达」方案。

特斯拉官网也介绍道,8个摄像头和强大的视觉处理能力可实现360度视野范围,对周围环境的监测距离最远可达250米。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

最后,特斯拉还指出在最近交付的没有配备UUS车辆会有部分功能在短期内受到限制,比如泊车辅助、自动泊车、召唤、智能召唤功能。

这些问题后续会通过OTA进行修复。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

先扔毫米波,再扔超声波

要知道,马斯克一直以来都是纯视觉自动驾驶方案的拥趸。

现在常见的汽车雷达,主要分为这三种:超声波雷达、毫米波雷达、激光雷达。它们基于不同技术原理,功能也各不相同。

超声波雷达是通过超声波发射装置向外发出超声波,再利用接收器接收反射回来的超声波时间差来测算距离。主要用在倒车、自动泊车上。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

毫米波雷达,顾名思义用的是毫米波波段。测距原理是把无线电波(雷达波/电磁波)发射出去,根据接收回波与发送之间的时间差测得目标位置距离数据。主要用于高速巡航车距保持功能。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

激光雷达的工作原理是向目标发射探测信号(激光束),然后将接收到的从目标反射回来的信号(目标回波)与发射信号进行比较,获得目标距离、方位、高度、速度、姿态、形状等参数。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

因为激光速度快,提供信息丰富,激光雷达是现在大多数自动驾驶系统的第三重保障(第一重是毫米波雷达,第二重是摄像头)。

蔚来ET7、小鹏P5等国产智能汽车都已配装激光雷达。

而马斯克对于激光雷达,态度一直很倨傲。

两年前,他曾在某论坛上公开说:「谁用激光雷达谁是傻子」。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

他还曾详细解释过自己对雷达和摄像头的看法:

在雷达波长下,现实世界看起来像一个奇怪的幽灵世界。除了金属,几乎所有东西都是半透明的。当雷达和视觉感知不一致时,你采信哪一个?

视觉具有更高的精度,因此投入两倍的精力改善视觉比押注两种传感器的融合更明智。传感器的本质是比特流。摄像头比特/秒的信息量要比雷达和激光雷达高几个数量级。雷达必须有意义地增加比特流的信号/噪声,才能值得集成。随着视觉处理能力的提高,摄像头的性能将会远远甩开当下的雷达。

他说到做到,特斯拉的所有车型上至今没有一款采用激光雷达。

而早在2021年5月,特斯拉就曾官宣摒弃毫米波雷达功能。当时他的这一石破天惊的举动,引起汽车行业内的巨大争议。

因为毫米波雷达的取消,特斯拉的幽灵刹车事件陡增,还引发了新一轮的监管调查。

此前,美国国家公路交通安全管理局(NHTSA)发布了一份监管文件显示,特斯拉「幽灵刹车」的投诉量激增,从2月份的354起增长至单月758起,短短几个月,暴增了一倍。

一般来讲,车辆在辅助驾驶过程中主动刹车,原本是主动避险危险。但「幽灵刹车」却因为汽车感知硬件被外界误导所致。

这样突如其来的刹车就会带来人身危险以及车辆追尾事故。

而现在,马斯克竟然把超声波雷达也扔了。

这会带来什么样的问题呢?我们知道,车辆主要是靠超声波雷达来感知环境,也是靠它来发现空着的停车位。

因此,比起毫米波雷达,超声波仅是用来感知环境和定位的利器。

作为最常见的车载传感器,超声波雷达的成本也并不高。无论是倒车方案还是自主泊车方案,都超不过500块。

就是这么便宜的基本功能,马斯克也照扔不误。

网友对此评价:此举的作秀成分大于实际意义。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

知乎答主@森山

用算法模拟超声波雷达?

那么,用计算机算法可以模拟超声波雷达吗?马斯克说能。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

在今年十一的AI Day上,马斯克祭出一套100%纯视觉方案:8个摄像头,only摄像头。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

他再次重申:而智能车的眼睛,就是摄像头。我们人类完全可以让智能车的眼睛cover一切。

在AI day上,特斯拉甩出一套别致的形容:我们在创造一种人造动物——汽车。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

因为它能像动物一样,自主、智能地行动。而特斯拉的自动驾驶方案,就是让车模拟人类驾驶的过程:先用视觉辨别,再通过大脑神经计算,最后到达身体执行的层面。

特斯拉理想的视觉模拟摄像头,就像人类视觉皮层的神经网络连接一样,能够模拟大脑信息输入和输出的过程。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

为此,特斯拉构建了一种RegNet残差神经网络(residual neural networks)。

在底层,使用的是BiFPs为代表的特征金字塔网络(feature pyramid networks)。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

而在大脑神经计算这一块,特斯拉构建了一个多任务学习神经网络架构HydraNets,也叫「九头蛇网络」。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

摄像头传进来的数据,会利用RegNet残差网络和BiFPN算法模型统一处理,得出不同精度下的图像特征,供给不同需求类型的神经网络任务。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

此外,为了让车辆拥有所谓的记忆能力,特斯拉会将行驶的环境特征提取出来,再标记时间,形成一个3D+时间组成的4D空间,放入数据库,训练自动驾驶。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

特斯拉还搭建了自动标注流水线,用45秒-1分的视频,包括大量传感器数据,交给神经网络离线学习,随后用大量机器和人工算法,生成可以训练的数据。包括3亿个图像和近50个标注。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

此处使用的是NeRF「神经辐射场」,这种图像算法能够把2D转为3D,给出一段XY的2D坐标,神经网络就能预测地面高度,生成XYZ的3D坐标。随后将各种道路信息数据放入,投射到摄像头画面,从而构建出一个4D空间,模拟真实道路。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

因为使用了神经元渲染技术,图像看起来更加逼真。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

这个技术最强大的地方在于,不同于地图,只要数据足够精准,和摄像头捕捉的数据相吻合,就不需要额外的维护。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

显然,这一整套流程需要的强大算力,普通的计算机已经不够用了。

为此,特斯拉特意构建了Dojo超级计算机。在不到1立方英尺的体积下,Dojo的算力高达9PFLOPs,I/O带宽高达36TB/s。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

马斯克认为,剔除超声波雷达后,摄像头就是唯一的传感器。因此,可以有更纯净的数据和模型优化。

通过AI算法,可以实现更清晰的空间定位、更远距离的可见性、更清晰的物体识别区分。并且整个模型还会随着时间推移、随着数据累增而不断优化跃迁。

根据特斯拉的展示,通过使用视频网络,视频模块的结果曲线已经在雷达信号之上。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

特斯拉的豪赌

纯视觉方案究竟好不好,在多数人看来并不认同。

作为超级网红、流量神话,马斯克此举似乎并没有科技深意,原因也许就两个字:「省钱」(虽然并不能省多少)。

一直以来,特斯拉纯视觉方案饱受诟病,最主要的原因便是其对于未知障碍物识别能力差。

无法识别「白色卡车」的特斯拉已经导致多场车祸的发生,因此雷达也成为不可或缺的汽车装备。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

甚至在2021年CVPR分享会上,特斯拉AI主管称「雷达只是一根拐杖」。

他表示,特斯拉最终还要完全依靠摄像头,利用神经网络来实现纯视觉自动驾驶。

此前有知乎网友曾拿下面这张图做视觉识别实验。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

把白色卡车图片导入Photoshop,采用快速选择工具,试图把白色卡车的轮廓勾选出来,得到的结果是这样的:

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

有一大片蓝天白云同时被划入了勾选框。在Photoshop来看白色货箱和天空是一样的。

特斯拉辅助自动驾驶视觉识别系统的结果可能也是如此。

对此,有网友称遇见特斯啦要穿的鲜艳一些,尤其不能穿的像白色大货车。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

即便是这样,特斯拉依然坚持采用纯视觉方案,从另一面看也是对自身一个豪赌。

刚刚提到,特斯拉在取消UUS后会启动Occupancy Network,能够非常精准识别周围物理远近以及形状。

在AI Day上,斯拉自动驾驶研发总监的解释,它可以预测汽车周围所有物体的体积占用率。

即3D空间中的每个体素或连续点都有被占用的概率以及它接下来的可能运动。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

Occupancy Network技术的信息收集端头就是摄像头。用摄像头收集到的汽车周围各种元素后进行计算并得出本车自动运行时的准确位置。

它使用12位原始光子计算,每个像素有4比特信息,这意味着动态范围提高16倍,每个像素的位移计算速度是10毫秒。

从理论上讲,的确有可能比传统雷达传感器更安全。

对于纯视觉方案来说,研发压力主要在于软件算法。显然,视觉具有更大的开发潜力,也拥有理论上更高的上限。

而摄像头就好比人眼能够采集带有最丰富和完整的画面信息。

特斯拉最终希望达到的目的,是让其视觉处理能力达到激光雷达的可见性。这在行业中被称为「伪激光雷达」。

若想将2D图像的每个像素还原成真实的3D场景,最核心的能力依旧是图像处理算法,以及支持能够运行这一算法的算力硬件。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

因此也不难理解特斯拉为何要研发自己的超算芯片。

同时,在今年AI Day上,特斯拉也计划在2023年之前建造它的第一个Exapod。

当然,针对中国市场,特斯拉并未取消毫米波雷达,更没有取消超声波传感器。因为国内交通环境更复杂,特斯拉纯靠视觉难度较大。

对于超声波的移除,网友认为特斯拉自动泊车功能本来就是灾难级的,这次官宣放弃明显是减配减成本一路走到黑。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

对此,网友表示:这是特粉必经的一场修行。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

知乎答主@Sudo Make

要是真出事了,也可以靠公司的法务部门显神通。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

无论如何,人的生命是无法交给算法的。

弃超声雷达!特斯拉官宣100%纯视觉自动驾驶,看路全靠8颗摄像头

知乎答主@森山

参考资料:

https://www.tesla.com/support/transitioning-tesla-vision

https://zhuanlan.zhihu.com/p/570431956

https://www.zhihu.com/question/558212074/answer/2707939768

https://www.zhihu.com/question/558212074/answer/2707947762 https://www.zhihu.com/question/558212074/answer/2707622643

特别鸣谢知乎答主「刘三姐」的精彩回答

  • 发表于 2022-11-16 11:38
  • 阅读 ( 118 )
  • 分类:互联网

0 条评论

请先 登录 后评论
阿楠
阿楠

680 篇文章

你可能感兴趣的文章

相关问题