特斯拉的最终形态：一家人工智能科技公司

驾驶哥 2021年8月23日浏览：1689

2021 年 8 月 20 日，特斯拉 AI 日终于在预热了一个月以后正式开始了。

这次特斯拉依然没有让人失望，「一大堆」高科技技术展示了出来，包括，神经网络算法技术、超级计算机 Project Dojo、D1 芯片，真人形态的特斯拉机器人原型。

看了整场发布会，可以得出一个对特斯拉全新的认识，特斯拉虽然以汽车企业的形态存于市场，但 Ta 本质上是一家人工智能公司，而且特斯拉以数据、神经网络算法、超算平台构建了一条又宽又深的护城河。

下面展开聊聊。

特斯拉的最终形态：一家人工智能科技公司的图2

纯视觉方案以及 HydraNets

在 AI Day 之前的预热中 Dojo 出现的频次比较高，但在发布会正式开始后首先开讲的并不是期待已久的 Dojo 而是先介绍了纯视觉的自动驾驶方案以及背后的神经网络算法。

为了便于理解发布会中所讲的内容，我们必须先介绍一个背景：就是特斯拉自动驾驶方案的选择。

我们都知道的是 Autopilot 系统是特斯拉自研的自动驾驶系统，这套系统最大的特点是采用视觉感知方案，从 Autopilot 1.0 到现在的 FSD Bate V9.0 版本这套系统的变化则是，特斯拉取消了系统中的雷达，将用摄像头视觉和深度神经网络来支撑整个系统的运行，V9 版本 FSD 已经切换到了纯视觉。

而取消雷达让市场对与特斯拉自动驾驶的能力以及安全性提出来质疑，大部分人认为摄像头有天然的不足，感知融合方案则是传感器之间的相互补充，从而达到对环境感知能力的最优化。

而今天特斯拉就介绍了，Ta 如何利用纯视觉感知和深度神经网络来实现高级别自动驾驶。

首先开讲的是特斯拉 AI 总监 Andrej Karpathy 博士，他介绍，特斯拉纯视觉自动驾驶系统通过 8 个1280×960 12-Bit HDR 36Hz 摄像头的数据输入进单个神经网络中，整合成 3D 环境的感知，这被称为 Vector Space。

特斯拉纯视觉方案，基本构建原则是把自动驾驶系统看作一个生物，有眼睛、有神经、有大脑。他们从头设计了神经网络，按照生物视觉方法去建模，并利用多头路线，其中包括相机校准、缓存、队列和优化以简化所有任务。

简单理解就是，特斯拉在设计汽车中的视觉时，是按照人眼感知生物视觉的方式进行建模，那么全车 8 个摄像头的数据会输入到一个矢量空间内，经过神经网络计算时，自动驾驶电脑会不断缩小分辨率，同时提升通道数量，通过不同的数据输入创建不同的执行结果用于不同的功能和目的。

Karpathy 还展示了过去特斯拉识别单张图片算法的视频。在过去曾分享过的FSD的视频中可以看出，虽然每个摄像头的检测很好，但事实证明矢量空间是不够的。

而特斯拉现在的纯视觉算法「HydraNets」基于不同摄像头的视觉内容进行识别，到这里其实才到整个纯视觉的精髓，HydraNets（神经网络算法）是这套系统的核心，按照 Karpathy 博士所说 Ta 有几个特性，一，能够独立调节微任务；二，高效预测；三，做特征标注。

目前，纯视觉与采用感知融合的明显出现了区别，特斯拉在纯视觉上越走越远，但采用纯视觉就要解决有的问题，比如，多传感器融合算法的精密与优先权；还有就是摄像头能否展示真实的物理空间。

也就是说，去掉雷达后就要要求特斯拉用摄像头实现距离、速度、高度以及加速度等信息，用单纯的摄像头实现这些显然有困难，那么特斯拉的做法是利用深度神经网络来增加象限。

这就要提到 RNN（Recurrent Neural Network循环神经网络），什么是 RNN?

RNN是一种特殊的神经网络结构, 它是根据「人的认知是基于过往的经验和记忆」这一观点提出的，RNN 之所以称为循环神经网路，因为它是基于一个序列当前的输出与前面的输出也有关来处理信息。

通过记忆来处理任意时序的输入序列，来预测接下来即将发生的事情。这里面提到一个关键词「预测」。

简单理解就是，给到系统当前汽车周围的行人、车辆和其他障碍物的移动路径，RNN 就可以预测接下来的移动轨迹，包括位置、速度和加速度。

特斯拉采用 Transformer 算法用于预测距离。实际测试发现，在一段两侧都停放车辆的城市道路上，多摄像头感知的准确性和稳定性都要强大很多。

红绿灯左转是对于自动驾驶的巨大挑战，当车辆在道路上行驶并通过交叉路口时，神经网络会通过 RNN 进行预测。并在虚拟环境中进行多次模拟，以进一步改善路径规划和理解。

这套算法的特点是，特斯拉可以用海量的数据进行快速迭代，而对于数据最重要的处理就是标注，特斯拉表示，他们的数据并没有外包给第三方标注，而是自己建立了一个 1000 人左右的团队。

特斯拉的最终形态：一家人工智能科技公司的图8

但特斯拉一开始是基于 2D 图像数据标注，但现在特斯拉转向了 4D 图像后可以在向量空间中进行标注。不过，对于高阶的自动驾驶能力，光靠手动标注并不能满足需求，因此，特斯拉开发了自动标注工具。

特斯拉自动驾驶软件负责人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何从一辆正在行驶的汽车中「重建」出来的。这有效地让特斯拉能够更快地标记数据，同时允许车辆即使在存在遮挡的情况下也能安全准确地导航。

特斯拉的最终形态：一家人工智能科技公司的图9

除了以上，特斯拉还有一个仿真模拟系统。

特斯拉利用一个新的仿真程序，来测试边缘情况和其他可能遇到的问题特斯拉表示，就像是 Autopilot 扮演玩家的视频游戏。

特斯拉的模拟（simulation）大有裨益。目前已经帮助特斯拉确定了行人、自行车和车辆检测和运动学。

特斯拉的最终形态：一家人工智能科技公司的图10

车辆中的网络已经能够得出 3.71 亿个模拟图像和 4.8 亿个立方体。

特斯拉的自动驾驶场景模拟系统能够根据现实视频自动对场景进行标注，重建场景，最后得出合成场景，该系统包括五个部分：

准确传感器模拟；
逼真渲染；
各种路上的事物和定位；
可扩展的场景生成；
情景重构。

总体来说，特斯拉在软件上实现了技术栈的闭环，强大的数据能力可以用于算法的迭代，而算法可以让纯视觉方案达到它的最优能力，从目前北美推动的 FSD Bate 系统的表现能力来看这套技术依然还在持续进化中。

特斯拉的最终形态：一家人工智能科技公司的图11

Dojo

在「AI Day」发布会的邀请函上，放着一张夸张的芯片图。该芯片才用了非常规的封装形式，有多层结构组成具体有：

第一层和第五层铜质结构是水冷散热模块；
红色圈出的第二层结构由 5*5 阵列共 25 个芯片组成；
第三层为 25 个阵列核心的 BGA 封装基板；
第四层和第七层应该只是物理承载结构附带一些导热属性；
蓝色圈出的第六层应该是功率模块，以及上面竖着的黑色长条，很可能是穿过散热与芯片进行高速通信的互联模块。

从第二层结构的圆形边角，以及拥有 25 个芯片结构来看，非常像 Cerebras 公司的 WSE 超大处理器，即才特斯拉可能采用了 TSMC（台积电）的 InFO-SoW（集成扇出系统）设计。

所谓 InFo-SoW 设计，简单理解来说就是原本一个晶圆（Wafer）能够「切割」出很多个芯片，做成很多个 CPU/GPU 等类型的芯片（根据设计不同，光刻时决定芯片类型），而 InFo-SoW 则是所有的芯片都来自于同一个晶圆，不但不进行切割，反而是直接讲整个晶圆做成一个超大芯片，实现 system on wafer 的设计。

这么做的好处有三个：极低的通讯延迟和超大的通讯带宽、能效的提升。

简单来说，由于 C2C（芯片与芯片之间）的物理距离极短，加上通讯结构可以直接在晶圆上布置，使得所有内核都能使用统一的 2D 网状结构互连，实现了 C2C 通信的超低延迟和高带宽；以及由于结构优势实现了较低的 PDN 阻抗，实现了能效的提升。

此外，由于是阵列多个小芯片组成，可以通过冗余设计来避免「良品率」问题，以及实现小芯片处理的灵活性。

举个形象的例子，特斯拉前一阵公布的超级电脑，一共用了 5760 个 Nvida A100 80GB 的 GPU，那么在这些芯片之间，需要海量的物理结构进行连接以实现通讯，不仅耗费大量成本，且由于连接结构的带宽限制成为「木桶短板」，导致整体效率较低，并且还有分散的庞大散热问题。

特斯拉的最终形态：一家人工智能科技公司的图14

据 Dojo 项目负责人Ganesh Venkataramanan介绍，几年前，马斯克几年前曾要求特斯拉工程师设计一台超高速训练计算机，这就是特斯拉启动 Dojo 项目的原因。Dojo 超级计算机将于明年投用，基于大量视频训练AI算法。

Dojo是一个通过网络结构连接的分布式计算体系结构，拥有一个大型计算平面、超高带宽和低延迟、大型网络分区和映射等等，并有一个新编译器来减少局部通信和全局通信，可扩展性强。

该超算内置特斯拉自研 AI 训练芯片 D1。

D1 芯片采用 7nm 工艺制造，单芯片面积达 645mm²，包含 500 亿个晶体管，BF16/CFP8 峰值算力达 362 TFLOPS，FP32 峰值算力达 22.6 TFLOPS，热设计功耗（TDP）不超过 400W。

该芯片具有 GPU 级别训练能力和 CPU 级别可控性，可实现 50 万个训练节点无缝连接。由此特斯拉提出由 25 个 D1 芯片组成的训练单元（tile）。一个训练单元的接口带宽每秒 36 TB，算力达 9 PFLOPS，采用了集中供电和散热设计，散热能力 15 kW。

拥有 120 个训练单元、3000 颗 D1 芯片、超过 100 万个训练节点的特斯拉机柜模型 ExaPOD，其 BF16/CFP8 算力高达 1.1 EFLOPS。

特斯拉的最终形态：一家人工智能科技公司的图17

其分布式系统是分区块的，Dojo 处理单元 DPU（Dojo Processing Unit）是一个可根据应用需求调整大小的虚拟设备，包含多个 D1 芯片和接口处理器。特斯拉编译器引擎可自动将执行指令映射到 DPU 上，无需人工操作。特斯拉打造了一整套软件堆栈。

Ganesh 表示，特斯拉Dojo是史上最快的AI训练计算机。同等功耗下，Dojo超算比现有计算机性能提升4倍、能效提升1.3倍、碳足迹只有原来的1/5。此外，特斯拉预告下一代Dojo超算性能将再提升10倍，不过它并没有透露具体实现日期。

特斯拉的最终形态：一家人工智能科技公司的图18

Tesla Bot 亮相

如果上面是今天 AI Day 能预料到的，那么特斯拉的人行机器人则是意料之外。

Tesla Bot 参数：

体重 125 磅，约 56.7 kg，约 113 斤；
身高 5 英尺 8 英寸，约 172 cm；
最快行走速度 5 英里/小时，约 8 km/h；
承载能力 45 磅，约 18 kg。

此外，Tesla Bot还搭载了40个机电执行器，人类级别的手和两只脚。机器人将通过力反馈感应来实现平衡，机器人的脸则会作为显示用户信息的屏幕。

与特斯拉汽车相同，机器人将使用基于视觉的神经网络，AP 的摄像头以及 FSD 的全套计算设备。

同时还会有Dojo超算的加持，为其提供自动标签、以及训练等。

特斯拉的最终形态：一家人工智能科技公司的图21

Elon 表示，Tesla Bot 会替代人类去执行那些危险、重复、无聊的任务。

自此，发布会就结束了，但从以上信息来看特斯拉的研发进程还没有结束，而且 Elon 说了一句比较有意思的话「我们已经制造了有轮子的机器人，我们也可以制造出像人类一样的机器人，它将为我们做很多人类不愿意做的工作」。

这句话意味深长，就像是特斯拉正以解决人类所有的服务为目标。

默认最新

当前暂无评论，小编等你评论哦！

点赞评论收藏

驾驶哥

关注