特斯拉推出Dojo超算诊断技术,严防AI训练数据损毁

特斯拉推出Dojo超算诊断技术,严防AI训练数据损毁

特斯拉近日公布了其百万核心级Dojo超算系统的创新故障检测技术,通过自主研发的Stress工具,可在不停机状态下跨处理器和集群识别静默数据错误(SDC)的核心缺陷。这一突破至关重要,因为单个错误即可导致耗时数周的AI训练任务功亏一篑,尤其Dojo作为全球唯二的最大处理器之一,其晶圆级芯片尺寸已达物理极限,制造缺陷难以完全避免。

由于Dojo处理器包含8850个核心,功耗高达15000W,静默数据错误的风险被显著放大,对训练数据完整性构成严重威胁。特斯拉将每个Dojo单元称为“训练模块”,由25个D1芯片组成,采用台积电InFO_SoW封装技术,总带宽达10TB/s,但其复杂性迫使公司升级检测方案。初期使用的差分模糊测试方法因主机通信延迟而效率低下,特斯拉通过三项创新实现优化:为每个核心分配0.5MB专属负载,利用内部高带宽缩短测试时间;多次运行负载以暴露潜在错误;并通过XOR操作提升缺陷识别率10倍,同时控制性能损耗。

改进后的Stress工具已扩展至模块、机柜及集群层级,支持百万核心规模的实时故障定位。测试数据显示,多数缺陷可在数秒至数分钟内检出,但顽固故障需执行数小时指令才能暴露。该系统运行轻量级负载,仅禁用故障核心,且单个D1芯片可容忍多个核心失效而不影响整体功能,还意外帮助修复了底层设计缺陷。

目前,Stress工具已全面集成至Dojo集群,监测到的故障率与谷歌、Meta等企业相当,标志着特斯拉在AI硬件健康管理上达到行业前列。此举恰逢下一代Dojo 2芯片即将上线,有望进一步强化系统可靠性,支撑特斯拉自动驾驶及机器人训练的长期目标。

原创文章,作者:Tesla,如若转载,请注明出处:https://www.kejixun.co/article/722834.html

Tesla的头像Tesla认证作者

相关推荐

发表回复

登录后才能评论