特斯拉发布的TTPoE协议,网络延时0.0013毫秒,比TCP/IP快400倍

在 2024 年的 Hot Chips 会议上,特斯拉的 AI 超级计算机 DOJO 再度成为焦点,其独特的网络架构 ——Tesla 传输协议以太网(TTPoE)更是引发广泛关注。


特斯拉不仅成功打造了专属的 AI 加速器,还自主研发了以太网传输协议 TTPoE,摒弃了传统的 TCP/IP 协议。这一创新举措充分展现了特斯拉在 AI 领域的强大自研技术实力与前瞻性战略思考。

tesla_

 


一、特斯拉 DOJO AI 网络的背景


特斯拉的 DOJO 是专门为训练深度学习模型而精心设计的超级计算机,其目标是加速特斯拉自动驾驶技术的蓬勃发展。DOJO 的卓越之处不仅仅在于硬件创新,更在于其独树一帜的软件和网络架构。


为了突破传统 TCP/IP 网络在处理海量数据时的速度瓶颈,特斯拉大胆引入 TTPoE,成功构建起一个百亿亿级别的 AI 网络。这一决策背后有着深刻的原因,与特斯拉的 AI 训练需求紧密相连。


1. 为何特斯拉放弃 TCP/IP?


在特斯拉看来,TCP/IP 协议在 AI 集群中的表现不尽如人意,尤其是在面对高带宽和低延迟的严苛要求时。TCP/IP 的复杂状态机以及过多的包控制机制,使其在高性能计算环境中显得颇为笨拙。


而另一种常见的无损网络解决方案 ——RDMA,虽然通过优先流控制(PFC)实现了无损传输,但硬件需求高、成本高昂,且对网络会产生不良影响。特斯拉经过深入研究发现,这些协议无法满足 DOJO 在速度、成本和性能等多方面的需求,因此毅然决定自研协议,以突破现有瓶颈。


2. TTPoE 的独特魅力


TTPoE(Tesla 传输协议以太网)是专为特斯拉 AI 集群量身定制的传输层协议,在硬件层面实现了点对点传输。与传统网络架构不同,TTPoE 无需特制的交换机,仅仅依赖二层传输。这一设计使得特斯拉能够大幅降低硬件成本,同时显著提高网络性能。


TTPoE 并非简单地模仿 UDP,而是采用了一种有损的数据传输机制,允许数据包丢失并进行重试。这种设计与 TCP 有相似之处,但又没有 TCP 那样的重负荷和过多的包确认过程。这一巧妙的取舍使得 TTPoE 能够在高性能的 AI 训练场景中高效运行,它更加关注整体吞吐量和传输效率,而非苛求每个数据包的完美传递,这对于 AI 训练来说至关重要。


3. TTPoE 的微架构设计亮点


TTPoE 协议的核心在于其精妙的微架构设计。特斯拉将传输协议的实现直接集成到硅片和 FPGA 中,从而实现了数据传输效率的最大化。


作为第一代产品的重要组成部分,1MB 的传输(TX)缓冲区被精心设计为类似于 L3 缓存的结构,与高带宽内存(HBM)协同配合,极大地减少了数据在不同存储器之间传输的延迟。


TTPoE 采用了本地链路通道进行拥塞管理,而非依赖交换机或网络级别的控制。这种独特的本地处理方式大大降低了拥塞管理的复杂性,同时也有效避免了高负载情况下对整个网络性能的拖累。


虽然 TTPoE 支持 QoS(服务质量)管理,但在实际应用中,特斯拉选择关闭了该功能,以进一步提升性能并简化管理。


二、DOJO 超级计算机的硬件创新


特斯拉 DOJO 的硬件设计进一步凸显了其网络架构的独特性。DOJO 的 100Gbps 网络接口卡(NIC)被命名为 Mojo,其运行功率低于 20W,配备了 8GB DDR4 内存以及板载的 DOJO DMA 引擎。


这些硬件组件均经过精心定制,专门针对满足 TTPoE 协议的高效传输需求进行了优化。特斯拉的 DOJO 还采用了一个带有 32GB HBM 的接口处理器,支持高达 900GB/s 的传输速率。


这种强大的数据处理能力,再加上内部集成的 TTPoE 协议,使得 DOJO 能够在不依赖第三方设备的情况下,出色地完成海量数据的高速传输。


特斯拉在其 AI 超级计算机中全面部署 TTPoE,充分展示了其强大的自研能力和对未来的深远布局。然而,TTPoE 并不仅仅适用于 DOJO 系统。特斯拉还积极加入了 Ultra Ethernet 联盟,这意味着其创新的网络协议在未来极有可能被广泛应用于其他领域。


特斯拉的这一举措或许代表着一种全新的网络架构趋势,将定制化与高效化引入到其他高性能计算和数据中心环境中。


特斯拉选择 Arista 交换机为 TTPoE 提供支持,进一步增强了其系统的灵活性与兼容性。通过优化跳数和降低延迟,TTPoE 将以太网在 AI 集群中的应用潜力充分释放,为未来的超大规模 AI 训练网络奠定了坚实基础。


特斯拉的 TTPoE 协议彰显了其在 AI 计算领域的开拓性思维和卓越技术实力。通过摒弃传统的 TCP/IP 协议,特斯拉为 DOJO 超级计算机打造了一个前所未有的高速、有损网络架构。


这一创新设计不仅极大地提高了 AI 训练的效率,还显著降低了硬件成本,为特斯拉的 AI 技术发展提供了强有力的支撑。
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容