4月8日,英伟达研究团队近日发表了一项突破性成果:他们开发了一套名为“自主变异操作器”的AI系统,让AI化身自主程序员,专门负责优化GPU芯片的核心计算程序。在连续工作7天后,这套系统成功创造出了超越人类专家水平的GPU程序,在注意力计算任务中比英伟达官方cuDNN库快3.5%,比最新的FlashAttention-4算法快10.5%。

传统的AI辅助编程更像是一个智能的代码补全工具,人类主导、AI辅助。而英伟达团队彻底颠覆了这种模式。他们的AI程序员不再是被动的代码生成器,而是拥有完整工作流程的自主智能体——能够查阅技术文档、研究优化案例、分析性能瓶颈,然后自己编写代码、编译测试、分析结果,发现问题还会自动调试修复,整个过程完全不需要人类干预。
这套系统拥有三个核心能力:学习能力(从技术文档和历史代码中提取知识)、推理能力(分析性能瓶颈、预测优化策略效果)和创造能力(设计新的算法结构、尝试前所未有的优化思路)。与传统方法相比,最大优势在于持续性和系统性——AI程序员可以7×24小时不间断工作,在一周内尝试超过500种不同的优化策略,这样的探索规模是任何人类团队都无法达到的。
AI程序员的七天工作过程就像是观看一部慢镜头的进化纪录片。最初几天,它仔细研读了FlashAttention-4的源代码,分析了英伟达Blackwell架构的技术文档,理解了注意力计算的数学原理和硬件约束。第一个重大突破出现在第二天:它发现了一个巧妙的优化策略——QK-PV交错执行配合位掩码因果掩码,让原本需要严格按顺序执行的计算步骤得以交错进行,大幅减少了等待时间。
最有趣的优化出现在版本20:AI程序员实现了“无分支累加器重调”技术。传统方法在调整计算结果时会使用条件分支,但这会导致GPU中不同线程的执行路径不同,增加同步开销。AI程序员巧妙地消除了这个分支,让所有线程始终保持同步,同时使用更轻量化的内存同步机制。这个优化带来了8.1%的性能提升,是整个进化过程中最大的单次提升。
随后的版本中,AI程序员又相继实现了“修正/MMA流水线重叠”(让修正工序与计算工序并行执行)和“跨warp组寄存器重平衡”(重新分配GPU寄存器资源,避免性能瓶颈)等精细优化。每一个版本都在前一个版本的基础上改进,形成了一条清晰的演进轨迹。
最终版本40代表了这个AI程序员7天努力的集大成者。在BF16精度下,它开发的内核达到了1668 TFLOPS的计算吞吐量——如果说普通CPU是自行车,那么这个优化后的GPU就是一架超音速飞机。
AI程序员的能力测试并未止步于此。研究团队进一步验证了这些优化成果能否迁移到其他类似的但更复杂的计算任务中——分组查询注意力,这种模式被广泛应用于最新的大型语言模型中。
令人惊讶的是,当研究团队要求AI程序员将已优化的多头注意力代码改造为支持分组查询注意力时,整个过程只用了30分钟。这个速度让人类工程师都感到震惊,因为通常这样的迁移工作需要几天甚至几周的时间。测试结果验证了迁移的有效性:在因果分组查询注意力中,优化后的代码相比英伟达cuDNN库提升了高达7.0%。
这些结果证明,AI程序员发现的优化原理具有很强的通用性——它找到的并不是针对特定问题的临时方案,而是揭示了GPU硬件和注意力计算之间更深层的优化规律。
研究团队深入分析了AI程序员发现的几个最具代表性的优化策略,揭示了它对GPU硬件工作原理的深刻理解。“无分支累加器重调”技术解决了并行处理中的线程同步问题。在GPU这样的并行处理器中,不同线程可能做出不同决定,导致步调不一。AI程序员的解决方案是让所有线程都执行调整操作,但对于不需要调整的情况,调整系数设为1.0(相当于乘以1不改变原值)。这样所有线程都保持同步,并通过使用更轻量化的内存同步机制,最终获得了8.1%的性能提升。
“修正/MMA流水线重叠”技术重新设计了计算流程。传统设计中,修正工序需要等待两个阶段的矩阵乘法都完成后才能开始工作。AI程序员让修正工序在第一阶段完成后就立即开始,与第二阶段并行执行,整体处理时间大大缩短。
“跨warp组寄存器重平衡”技术则解决了资源分配不均的问题。AI程序员发现,按照默认分配方案,有些工作组寄存器闲置,有些则因不足而将数据溢出到较慢的本地内存。通过重新分配寄存器配额,它减少了内存溢出,获得了2.1%的性能提升。
这些优化策略的共同点是都需要对GPU硬件工作原理有深入理解——线程同步机制、流水线调度、寄存器分配等多个层面,并且要综合考虑相互影响,找到整体最优解。
这项工作的意义远超出了GPU性能优化本身。它代表着自主编程技术的一个重要里程碑,展示了AI系统在复杂工程任务中的巨大潜力。
首先,AI系统已经具备了理解复杂硬件架构的能力。Blackwell GPU包含数千个处理核心、复杂的内存层次结构、精密的调度机制,AI程序员不仅做到了准确理解,还能够发现人类专家未曾注意到的优化机会。
其次,AI系统展现出了强大的系统性思维能力。优化GPU程序需要在算法设计、资源分配、流水线调度等多个层面统筹考虑。AI程序员能够在这个多维度的优化空间中找到全局最优解,这种能力以前被认为是人类工程师的专有优势。
第三,AI系统的学习和适应能力得到了充分验证。从多头注意力到分组查询注意力的迁移过程表明,AI程序员不仅能够解决特定问题,还能够提取通用的优化原理并应用到新场景中——这种举一反三的能力是通用智能的重要标志。
从应用角度来看,这项技术的潜在影响是巨大的。在AI芯片行业,每当新的硬件架构问世,都需要大量经验丰富的工程师花费数月甚至数年的时间来开发优化的软件。AI程序员的出现可能会彻底改变这种模式,让软件优化的速度跟上硬件创新的步伐。更广阔的应用前景在于数据库查询优化、网络协议栈优化、操作系统内核优化等其他性能关键软件领域。
当然,这项技术也带来了一些需要深思的问题。当AI系统能够自主进行复杂的系统优化时,人类工程师的角色将如何定位?如何确保AI生成代码的安全性和可靠性?如何在享受AI效率提升的同时,保持人类对关键系统的理解和控制?
从更长远的角度看,这项工作可能预示着自主软件开发时代的到来。未来的软件系统可能会具备自我优化的能力,能够根据运行环境的变化自动调整行为、持续提升性能。这不仅是编程方式的革新,更是软件系统从静态向动态、从被动向主动的根本性转变。
说到底,这项研究最令人兴奋的地方不在于具体性能数字,而在于它展示的可能性。当AI系统能够在如此复杂和专业的领域中超越人类专家的表现时,我们不禁要想象,还有多少看似需要人类智慧才能解决的问题,实际上可以通过恰当的AI系统来解决。这不是要替代人类工程师,而是要让人类从繁重的优化工作中解放出来,专注于更具创造性和战略性的任务。
该研究成果发表于2026年3月25日,论文编号为arXiv:2603.24517v1,有兴趣深入了解的读者可以通过该编号查询完整论文。
原创文章,作者:潮玩君,如若转载,请注明出处:https://www.kejixun.co/article/749461.html