FSDRewrite：特斯拉的模仿游戏.docVIP

下载本文档

1
0
约9.82千字
约 37页
2021-09-18 发布于浙江
举报
版权申诉

FSDRewrite：特斯拉的模仿游戏.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

FSDRewrite：特斯拉的模仿游戏 01 始于 2016 年的铺垫 2019 年 4 月 22 日，特斯拉在自动驾驶日上公布了自家的 HW 3.0 自动驾驶芯片，硬件参数中最耀眼的莫过于两颗神经网络处理器带来的 72 TOPS 的算力。硬件介绍中提到在神经网络的加速运算下，这块 HW 3.0 芯片图像处理能力为 2,100 FPS，对比之下浮点运算能力为 600 GFLOPS 的 GPU 仅能做到 17 FPS，神经网络芯片加速运算下的图像处理优势一目了然。为了做出一块业界最强的自动驾驶芯片，特斯拉在研发准备期间先后请来了数位大师级人物。 HW 3.0 这个业界首块为神经网络运算而打造的车规级自动驾驶芯片始于 2016 年。在那一年特斯拉迎来了在半导体行业从业 40 年、主导研发了 iPhone 5S 上首个 64 位架构移动端处理器的前苹果芯片架构师 Pete Bannon，而在更早的 2015 年，传奇芯片架构师 Jim Keller 也离开 AMD 加入了特斯拉。在大师们带领的精英团队的共同努力下，HW 3.0 自研芯片项目从开始招募人员到芯片进入研发，再到量产大规模装车的过程仅用时 3 年，而且?HW 3.0?至今仍然是市面上算力最高的量产车规级自动驾驶芯片。但 HW 3.0 芯片在 2019 年上车后，FSD 功能却并未迎来脱胎换骨的能力提升。不过如果你回看 HW 3.0 的发布会内容，原因并不难寻 —— 这是一块面对神经网络打造的芯片。而 FSD 那时候在软件层面还未完成向神经网络结构的转化，直到重写的 FSD Beta 面世。这次重写对于 FSD 意义重大，神经网络大显身手下的新版软件让特斯拉的视觉方案得到了大幅的提升，甚至如果看完后面的内容，你会明白正是有这次改动，Full Self-Driving 才真正有了实现的可能。 For human, by human 2019 年的特斯拉自动驾驶日上，特斯拉 AI 高级总监 Andrej Karpathy 说：「我想强调一下，在座中驾车至此的，你们靠的是视觉与神经网络的协同运作，而非眼中发射激光束来感知路况。」同样在当天会议中，马斯克还提及了一个现实问题：全世界的道路都是为人类驾驶而设计的。在这两番言论背后其实可以感受到这么一层隐含的意思：驾驶是人类行为，道路是为人类设计，如果能具备和人类一样的感知与驾驶逻辑，那这就是一套通用的自动驾驶方案。某种程度上，特斯拉就是这么做的。「视觉是最好的感知」马斯克多次在公开场合表现出对激光雷达为主的自动驾驶感知方案的不屑。因为通过雷达，你只能知道那儿有个东西，但你无法知道它是什么，它就像一个盲杖。他甚至都不看好激光雷达在自动驾驶领域的价值。「expensive、unnecessary」，在马斯克看来，激光雷达之于辅助驾驶仿佛买一台 RED 做监控摄像头，昂贵且没有必要。「Theyre all gonna dump Lidar, mark my words.」这是他在自动驾驶日上的原话。作为视觉感知方案上配置最复杂也是路线最为激进的企业，特斯拉目前所有在售特斯拉车型都搭载了 6 个方向的 8 颗摄像头。马斯克认为，视觉是信息密度以及信息量最大的驾驶感知途径。灯光、颜色、二维图案、物体类型等众多信息都包含在视觉里，人类靠视觉就可以完成驾驶。道理虽然如此，但 Robotaxi 行业的专业自动驾驶玩家却几乎都采用了激光雷达方案。而就 FSD 改版前所展现出的能力也的确撑不起马斯克的「视觉至上」言论。那马斯克的路线错了吗？现在这个节点上，我并不这么认为。因为特斯拉在老版本 FSD 上对于视觉感知能力的挖掘离马斯克的想法或者说离人眼感知水平的差距还有十万八千里。视觉路线是有说服力的，只是特斯拉的完成度还不够。事实似乎也证明了这点。在没有任何的硬件改动升级下，FSD Beta 此次在视觉感知层面展现出了跨越级的惊人进步。不过，这背后到底发生了什么？ 02 神经网络下的升维视觉今年 2 月的 ScaledML2020 （Scaled Machine Learning Conference）会议上，特斯拉 AI 高级总监 Andrej Karpathy 用他一贯快到起飞的语速花了 30 分钟介绍特斯拉的自动驾驶内容，其中的第三个章节叫「Birds Eye View networks」。此前的特斯拉视觉识别预测是这么做的：首先，由车辆摄像头获取道路环境的 2D 图像，然后图像被送至特征提取部分，即「Backbone」。然后在 2D 的像素空间下再对特征进行识别区分以及道路环境预测。比如路肩探测，实际的效果是这样的：「You just cant drive on this raw predict