特斯拉AI Day最硬核的解读来了!清华博导分析6大关键点

不靠激光雷达和高精地图,特斯拉的底气都在这里。
在刚刚过去的国庆节,特斯拉举办了第二届AI Day活动,在活动上除了展示了其人形机器人Optimus的原型机、自研的Dojo超算,还重点介绍了其自动驾驶FSD的更多细节。
其自动驾驶相关负责人非常深入的介绍了特斯拉在感知、规划、矢量地图、自动标注、仿真和基础设施等方面的布局,非常全面的展示了特斯拉FSD算法进展。
发布会结束后,也引起了国内众多自动驾驶相关专家学者的关注。清华大学清华大学交叉信息研究院助理教授,博士生导师赵行博士也非常细致的梳理的特斯拉AI Day上展示的一些关键技术和进展。
赵行2015年在MIT联合开发了第一门自动驾驶课程,后被推广到全世界十余所高校进行应用教学,并在2015年获得ICCP最佳论文奖。其在2019年博士毕业于麻省理工学院。博士期间师从MIT AI+决策系主任Antonio Torralba教授,主要研究方向为计算机视觉,多模态和多传感器的机器学习。
▲清华大学清华大学交叉信息研究院助理教授,博士生导师赵行博士
也是在2019年,赵行加入Waymo担任研究科学家,提出了自动驾驶行为预测中一系列框架型的工作,为行业大多数公司所使用或借鉴。其本人也入选2020年福布斯中国U30科学精英榜。
2021年加入清华大学担任助理教授,研究涵盖自动驾驶的整个算法栈,以及多模态和多传感器的机器学习。在自动驾驶方面,提出了“以视觉为中心的自动驾驶VCAD”方案,被业界广泛采纳,并落地应用。目前在清华大学组建和指导MARS Lab课题组,主要研究兴趣为自动驾驶,多模态学习和计算机视觉。在国际顶级期刊和会议发表论文共计40余篇,Google Scholar引用共计8000余次。研究工作曾被BBC,NBC, 麻省理工科技评论等多家主流科技媒体报道。
可以说,赵行博士对于自动驾驶方面有非常深入的研究,对于特斯拉AI Day上展示的技术也有非常深刻的认知。在获得了赵行博士的同意后,我们转载了其关于特斯拉AI Day活动的分析文章。
以下为赵行博士原文,为方便理解,车东西做了一些编辑:
9月30日(美国时间)的Tesla AI Day,特斯拉发布了初版的Optimus机器人,自动驾驶FSD的更多细节也慢慢浮现在大众的眼前。我整理了Tesla FSD算法方面值得重点关注的进展与大家分享。
Ashok在一开场就讲到,特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。
1、感知 Occupancy Network
2、规划 Interactive Planning
3、矢量地图 Lanes Network
4、自动标注 Autolabeling
5、仿真 Simulation
6、基础设施 Infrastructure
特斯拉今年在感知方面的一个重点技术就是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的一个概率值。
▲对正在启动的两节公交车的occupancy估计,蓝色表示运动的体素,红色表示静止的体素
▲Occupancy Network结构
规划 Interactive Planning
▲Interaction Search规划模型结构
▲矢量地图,圆点为车道线关键点,蓝色为车道中心线
▲Lanes Network网络结构
▲HDMapGen[7] 矢量地图生成结果
▲VectorMapNet[8] 矢量地图生成结果
▲Lanes Network自动标注。
▲视觉仿真重建的路口。
▲视频模型训练的超算中心
[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR.
[2] Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Yu, Q. and Dai, J., 2022. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv preprint arXiv:2203.17270.
[3] Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W. and Jiang, Y.G., 2022. PolarFormer: Multi-camera 3D Object Detection with Polar Transformers. arXiv preprint arXiv:2206.15398.
[4] Liu, Y., Wang, T., Zhang, X. and Sun, J., 2022. Petr: Position embedding transformation for multi-view 3d object detection. arXiv preprint arXiv:2203.05625.
[5] Cao, A.Q. and de Charette, R., 2022. MonoScene: Monocular 3D Semantic Scene Completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 3991-4001).
[6] Zhao, H., Gao, J., Lan, T., Sun, C., Sapp, B., Varadarajan, B., Shen, Y., Shen, Y., Chai, Y., Schmid, C. and Li, C., 2020. Tnt: Target-driven trajectory prediction. In Conference on Robot Learning 2020, arXiv:2008.08294
[7] InterSim, https://tsinghua-mars-lab.github.io/InterSim/
[8] Mi, L., Zhao, H., Nash, C., Jin, X., Gao, J., Sun, C., Schmid, C., Shavit, N., Chai, Y. and Anguelov, D., 2021. HDMapGen: A hierarchical graph generative model of high definition maps. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4227-4236).
[9] Liu, Y., Wang, Y., Wang, Y. and Zhao, H., 2022. VectorMapNet: End-to-end Vectorized HD Map Learning. arXiv preprint arXiv:2206.08920.

工程师必备
- 项目客服
- 培训客服
- 平台客服
TOP
