广告
首页 > 电子市场商情 > 特斯拉Dojo超级计算机详情:使用内部芯片构建,用于FSD和机器人

特斯拉Dojo超级计算机详情:使用内部芯片构建,用于FSD和机器人

特斯拉的Dojo 环境很早就集成到了自动驾驶软件中,以找出软件工作负载的规模限制。为了支持前所未有的功率和冷却​​密度,该团队购买了一个完全定制设计的 CDU,其成本仅为购买现成和修改它的一小部分。今年年初,该团队开始对电源和冷却进行负载测试。根据特斯拉自动驾驶系统首席系统工程师 Bill Chang 的说法,他们能够推动超过 2 兆瓦时的电力,然后才使城市的附属电站跳闸。

特斯拉的Dojo 环境很早就集成到了自动驾驶软件中,以找出软件工作负载的规模限制。为了支持前所未有的功率和冷却​​密度,该团队购买了一个完全定制设计的 CDU,其成本仅为购买现成和修改它的一小部分。今年年初,该团队开始对电源和冷却进行负载测试。根据特斯拉自动驾驶系统首席系统工程师 Bill Chang 的说法,他们能够推动超过 2 兆瓦时的电力,然后才使城市的附属电站跳闸。Hilesmc

以目前的编译器性能,一个 Dojo tile 可以取代六个 GPU 盒子的机器学习计算量。Hilesmc

超级计算机的第一次大规模部署将针对需要高算术强度的自动标记,目前在 72 个 GPU 机架上占用 4,000 个 GPU。预计四个 Dojo 机柜将提供相同的吞吐量。Hilesmc

第一个 Exapod 由 10 个 Dojo 机柜组成,可产生 2.5 倍的自动标签容量,将于 2023 年第一季度在帕洛阿尔托部署。此外,特斯拉计划未来在帕洛阿尔托部署七台 Exapod。Hilesmc

Hilesmc

特斯拉 Dojo 超级计算机 ExaPODHilesmc

特斯拉自动驾驶软件主管 Ashok Elluswamy 表示,训练神经网络系统的方法包括自动标记、模拟和使用数据引擎,显然这是一系列试验和错误。训练过程要求特斯拉在一年内将训练基础设施扩大 40-50%,达到美国多个训练集群的约 14,000 个 GPU。现在,神经网络在同一台自动驾驶计算机内的两个独立的片上系统 (SoC) 上执行,具有严格控制的端到端延迟。该系统不仅在特斯拉汽车上运行,而且在特斯拉机器人擎天柱上也能运行。Hilesmc

语言建模

值得注意的是,该团队已经使用语言建模来改善计算机视觉。Elluswamy 指出,语言建模将成为未来计算机视觉的基础,它可以为汽车运行自动驾驶,并预测机器人到达目的地的优化路径,例如在家中或工厂。Hilesmc

该系统的神经网络能够用物理对象(即特斯拉术语中的占用率)构建一个 3D 向量空间,并通过使用单词和标记对其进行编码来检测车道和道路结构。Hilesmc

负责特斯拉自动驾驶视觉团队的 John Emmons 表示,早期的自动驾驶通过建模图像空间实例分割来检测车道。它可以有效地检测高速公路等高度结构化的道路,但会导致在执行复杂操作时完全崩溃,例如在十字路口和其他具有更复杂道路拓扑的地方转弯。Hilesmc

为了检测车道连通性,该团队为系统开发了一种车道语言,以预测车辆和其他车辆的路线。“通过将(车道检测)建模为带有单词和标记的语言,我们可以利用最近的自回归架构,”Emmons 说。Hilesmc

分割车道的问题在于,一方面,有时输入的道路图像在各种天气条件下不够清晰。Hilesmc

通过预测所有物体未来轨迹的一组短时间范围,可以预测和避免危险情况。这就是语义真正用于车道检测的方式。Hilesmc

构建用于 AI 训练的超级计算机

工程负责人怎么强调训练这些模型对改进的重要性都不为过,大量的训练将需要更大的计算能力和高效率。尽管容量适中,但工程团队从 DRAM 退回到具有高带宽和低延迟的 SRAM,这有助于实现算术单元的高利用率。Hilesmc

该团队注意到今天大多数机器的另一个不同寻常的举动是他们决定使用模型并行作为训练方法。Hilesmc

特斯拉自动驾驶硬件高级总监 Ganesh Venkataramanan 表示:“所有决定都是围绕‘无极限’理念做出的。” “这就是我们垂直整合我们的数据中心以提高效率、优化电力输送、冷却以及系统管理的原因。”Hilesmc

虽然特斯拉的全自动驾驶功能尚未克服一些技术障碍和监管限制,但其人工智能团队在特斯拉的 2022 年人工智能日上展示了令人印象深刻的工作。Hilesmc

10 月 1 日的年度活动更像是一场计算机科学讲座。除了创始人埃隆马斯克和人形机器人擎天柱之外,特斯拉的 20 多名工程团队负责人上台分享了他们过去一年的进展。整个活动持续了大约三个小时。Hilesmc

据特斯拉称,超过 160,000 名客户正在使用其 FSD Beta 软件。去年这个数字是2,000。在过去的一年里,FSD 团队总共训练了超过 75,000 款 AI 模型,并交付了 281 款真正提升自动驾驶性能的模型。Hilesmc

责编:Editordan
  • 微信扫一扫,一键转发

  • 关注“国际电子商情” 微信公众号

为你推荐

近期热点

广告
广告

EE直播间

更多>>

在线研讨会

更多>>