英伟达AI程序员自主优化GPU核心代码，7天击败人类专家

潮玩君 • 2026年4月8日 15:37:00 • AI

4月8日，英伟达研究团队近日发表了一项突破性成果：他们开发了一套名为“自主变异操作器”的AI系统，让AI化身自主程序员，专门负责优化GPU芯片的核心计算程序。在连续工作7天后，这套系统成功创造出了超越人类专家水平的GPU程序，在注意力计算任务中比英伟达官方cuDNN库快3.5%，比最新的FlashAttention-4算法快10.5%。

传统的AI辅助编程更像是一个智能的代码补全工具，人类主导、AI辅助。而英伟达团队彻底颠覆了这种模式。他们的AI程序员不再是被动的代码生成器，而是拥有完整工作流程的自主智能体——能够查阅技术文档、研究优化案例、分析性能瓶颈，然后自己编写代码、编译测试、分析结果，发现问题还会自动调试修复，整个过程完全不需要人类干预。

这套系统拥有三个核心能力：学习能力（从技术文档和历史代码中提取知识）、推理能力（分析性能瓶颈、预测优化策略效果）和创造能力（设计新的算法结构、尝试前所未有的优化思路）。与传统方法相比，最大优势在于持续性和系统性——AI程序员可以7×24小时不间断工作，在一周内尝试超过500种不同的优化策略，这样的探索规模是任何人类团队都无法达到的。

AI程序员的七天工作过程就像是观看一部慢镜头的进化纪录片。最初几天，它仔细研读了FlashAttention-4的源代码，分析了英伟达Blackwell架构的技术文档，理解了注意力计算的数学原理和硬件约束。第一个重大突破出现在第二天：它发现了一个巧妙的优化策略——QK-PV交错执行配合位掩码因果掩码，让原本需要严格按顺序执行的计算步骤得以交错进行，大幅减少了等待时间。

最有趣的优化出现在版本20：AI程序员实现了“无分支累加器重调”技术。传统方法在调整计算结果时会使用条件分支，但这会导致GPU中不同线程的执行路径不同，增加同步开销。AI程序员巧妙地消除了这个分支，让所有线程始终保持同步，同时使用更轻量化的内存同步机制。这个优化带来了8.1%的性能提升，是整个进化过程中最大的单次提升。

随后的版本中，AI程序员又相继实现了“修正/MMA流水线重叠”（让修正工序与计算工序并行执行）和“跨warp组寄存器重平衡”（重新分配GPU寄存器资源，避免性能瓶颈）等精细优化。每一个版本都在前一个版本的基础上改进，形成了一条清晰的演进轨迹。

最终版本40代表了这个AI程序员7天努力的集大成者。在BF16精度下，它开发的内核达到了1668 TFLOPS的计算吞吐量——如果说普通CPU是自行车，那么这个优化后的GPU就是一架超音速飞机。

AI程序员的能力测试并未止步于此。研究团队进一步验证了这些优化成果能否迁移到其他类似的但更复杂的计算任务中——分组查询注意力，这种模式被广泛应用于最新的大型语言模型中。

令人惊讶的是，当研究团队要求AI程序员将已优化的多头注意力代码改造为支持分组查询注意力时，整个过程只用了30分钟。这个速度让人类工程师都感到震惊，因为通常这样的迁移工作需要几天甚至几周的时间。测试结果验证了迁移的有效性：在因果分组查询注意力中，优化后的代码相比英伟达cuDNN库提升了高达7.0%。

这些结果证明，AI程序员发现的优化原理具有很强的通用性——它找到的并不是针对特定问题的临时方案，而是揭示了GPU硬件和注意力计算之间更深层的优化规律。

研究团队深入分析了AI程序员发现的几个最具代表性的优化策略，揭示了它对GPU硬件工作原理的深刻理解。“无分支累加器重调”技术解决了并行处理中的线程同步问题。在GPU这样的并行处理器中，不同线程可能做出不同决定，导致步调不一。AI程序员的解决方案是让所有线程都执行调整操作，但对于不需要调整的情况，调整系数设为1.0（相当于乘以1不改变原值）。这样所有线程都保持同步，并通过使用更轻量化的内存同步机制，最终获得了8.1%的性能提升。

“修正/MMA流水线重叠”技术重新设计了计算流程。传统设计中，修正工序需要等待两个阶段的矩阵乘法都完成后才能开始工作。AI程序员让修正工序在第一阶段完成后就立即开始，与第二阶段并行执行，整体处理时间大大缩短。

“跨warp组寄存器重平衡”技术则解决了资源分配不均的问题。AI程序员发现，按照默认分配方案，有些工作组寄存器闲置，有些则因不足而将数据溢出到较慢的本地内存。通过重新分配寄存器配额，它减少了内存溢出，获得了2.1%的性能提升。

这些优化策略的共同点是都需要对GPU硬件工作原理有深入理解——线程同步机制、流水线调度、寄存器分配等多个层面，并且要综合考虑相互影响，找到整体最优解。

这项工作的意义远超出了GPU性能优化本身。它代表着自主编程技术的一个重要里程碑，展示了AI系统在复杂工程任务中的巨大潜力。

首先，AI系统已经具备了理解复杂硬件架构的能力。Blackwell GPU包含数千个处理核心、复杂的内存层次结构、精密的调度机制，AI程序员不仅做到了准确理解，还能够发现人类专家未曾注意到的优化机会。

其次，AI系统展现出了强大的系统性思维能力。优化GPU程序需要在算法设计、资源分配、流水线调度等多个层面统筹考虑。AI程序员能够在这个多维度的优化空间中找到全局最优解，这种能力以前被认为是人类工程师的专有优势。

第三，AI系统的学习和适应能力得到了充分验证。从多头注意力到分组查询注意力的迁移过程表明，AI程序员不仅能够解决特定问题，还能够提取通用的优化原理并应用到新场景中——这种举一反三的能力是通用智能的重要标志。

从应用角度来看，这项技术的潜在影响是巨大的。在AI芯片行业，每当新的硬件架构问世，都需要大量经验丰富的工程师花费数月甚至数年的时间来开发优化的软件。AI程序员的出现可能会彻底改变这种模式，让软件优化的速度跟上硬件创新的步伐。更广阔的应用前景在于数据库查询优化、网络协议栈优化、操作系统内核优化等其他性能关键软件领域。

当然，这项技术也带来了一些需要深思的问题。当AI系统能够自主进行复杂的系统优化时，人类工程师的角色将如何定位？如何确保AI生成代码的安全性和可靠性？如何在享受AI效率提升的同时，保持人类对关键系统的理解和控制？

从更长远的角度看，这项工作可能预示着自主软件开发时代的到来。未来的软件系统可能会具备自我优化的能力，能够根据运行环境的变化自动调整行为、持续提升性能。这不仅是编程方式的革新，更是软件系统从静态向动态、从被动向主动的根本性转变。

说到底，这项研究最令人兴奋的地方不在于具体性能数字，而在于它展示的可能性。当AI系统能够在如此复杂和专业的领域中超越人类专家的表现时，我们不禁要想象，还有多少看似需要人类智慧才能解决的问题，实际上可以通过恰当的AI系统来解决。这不是要替代人类工程师，而是要让人类从繁重的优化工作中解放出来，专注于更具创造性和战略性的任务。

该研究成果发表于2026年3月25日，论文编号为arXiv:2603.24517v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

原创文章，作者：潮玩君，如若转载，请注明出处：https://www.kejixun.co/article/749461.html

潮玩君管理团队

0 0

新闻

黄仁勋苏姿丰抵台备战2026台北电脑展

距离2026台北国际电脑展正式开幕仅剩一周，两大芯片巨头英伟达与AMD的首席执行官已先后抵达中国台湾地区，为即将到来的新品发布做最后准备。本届展会将于6月2日在台北市南港区等地拉开…

若安丶
1小时前
商业

英伟达第一财季净利润猛增211% 营收创816亿美元新高

英伟达今日发布2027财年第一财季报告，业绩全线超出预期。截至2026年4月26日，公司实现营业总收入816.15亿美元，同比增长85%；归母净利润高达583.21亿美元，同比暴涨…

商业头条
4天前
新闻

2026台北电脑展前瞻：英特尔掌机芯片与英伟达PC SoC成焦点

PC行业年度盛会COMPUTEX 2026距离开幕已不足一个月，但今年市场热情却比往年冷淡不少。据TrendForce报道，大众反应平淡的原因在于PC市场受到内存涨价冲击，多数厂商…

好奇宝宝
2026年5月11日
新闻

黄仁勋寄语应届生：别怕AI，当下是开启事业的最佳时机

英伟达创始人兼CEO黄仁勋近日出席卡内基梅隆大学2026年毕业典礼并发表演讲，他鼓励即将走出校园的应届生们不必畏惧人工智能，强调AI将为人类整体带来积极影响，而当下正是开启事业的最…

小科同学
2026年5月11日
新闻

英伟达任命高盛前副董事长为董事，加码AI时代布局

据彭博社报道，英伟达公司周五宣布，任命高盛集团前副董事长苏珊·诺拉·约翰逊为董事。这位金融行业及慈善事业领域的资深人士将于今年7月13日正式加入董事会，届时英伟达董事会成员数量将扩…

泡沫大盗
2026年5月9日
新闻

黄仁勋：英伟达在华AI加速器市场份额已降至零

英伟达CEO黄仁勋近日表示，受美国出口管制政策影响，该公司在中国AI加速器市场的份额已降至零。他在4月30日接受特别竞争研究项目采访时坦言，放弃像中国这样规模的一整个完整市场，在战…

秋秋
2026年5月4日
新闻

美国防部与七家AI公司签约，将先进工具接入机密网络

当地时间5月1日，美国国防部宣布与七家AI公司达成协议，将把这些公司的先进能力部署到国防部机密网络上，以扩大军方可以合作的AI企业范围。SpaceX、OpenAI、谷歌、英伟达、R…

NEWS
2026年5月2日
AI

英伟达推出Nemotron 3 Nano Omni全模态模型，吞吐量最高提升9.2倍

当地时间4月28日，英伟达正式发布名为Nemotron 3 Nano Omni的开源全模态推理模型，旨在为企业级AI Agent提供一体化基础模型底座。该模型基于30B?A3B混合…

AI
2026年4月29日
新闻

英伟达 DLSS 4.5 SDK 发布，支持将动态多帧生成、光线重构等新技术接入游戏

4月22日，据报道，英伟达现已发布 DLSS 4.5 SDK，让开发者能够在游戏中整合动态多帧生成等新技术。随着 DLSS 4.5 Streamline SDK 发布，开发者现在可…

科技观察者
2026年4月22日
商业

AI芯片制造商Cerebras启动美股IPO，挑战英伟达

据路透社报道，人工智能芯片制造商Cerebras Systems已于近日向美国证券交易委员会提交首次公开募股申请，计划在纳斯达克上市，股票代码拟定为“CBRS”。这家立志挑战AI芯…

商业头条
2026年4月19日
AI

英伟达发布全球首个开源量子 AI 模型“ISING”，解决量子计算纠错与校准两大核心难题

4月15日，英伟达今天发布全球首个开源量子 AI 模型“ISING”，旨在帮助科研人员、企业构建可以实际应用的量子处理器，重点解决误差校正、处理器校准两大核心痛点。人们在通往大规模…

苹果派
2026年4月15日
新闻

英特尔 BMG-G31 GPU 核心面积为 268 平方毫米，集成 277 亿个晶体管

4月7日，根据 Intel 英特尔向德国媒体 PCGH (PC Games Hardware) 确认的情况，应用于锐炫 Arc Pro B70 / B65 专业显卡的 &#8220…

李森
2026年4月7日
新闻

Quantum Machines发布开放加速堆栈，打通经典XPU与量子计算系统

3月25日，量子计算企业Quantum Machines宣布推出业界首个可将任意经典XPU与量子计算控制堆栈相整合的开放加速堆栈，实现量子计算机原生支持量子纠错与人工智能。该堆栈在…

校草
2026年3月25日
产品

英伟达发布GeForce Game Ready 595.97 WHQL驱动：优化游戏体验，修复三项问题

3月25日，英伟达发布GeForce Game Ready 595.97 WHQL显卡驱动。这一版本主要是日常的优化与修复，旨在提升玩家在支持DLSS、光线追踪、路径追踪和NVID…

李森
2026年3月25日
新闻

英伟达串流技术引爆苹果 Vision Pro 生态 CloudXR 6.0技术支持

3月18日，据报道称本周在美国圣何塞举办的 GTC 2026 活动中，英伟达宣布和苹果公司合作，Vision Pro 头显升级 visionOS 26.4 系统更新后，可以获得 C…

校草
2026年3月18日
新闻

英伟达新一代 Rubin 芯片阵容亮相，黄仁勋预测到 2027 年 AI 芯片有望带来 1 万亿美元收入

3月17日，据报道，英伟达 CEO 黄仁勋在 2026 年 GTC 技术大会的主题演讲中，抛出了一系列重磅消息。他不仅一口气发布了包括全新 Vera 处理器在内的多款新硬件，还大…

潮玩君
2026年3月17日
新闻

SK海力士亮相GTC 2026 集中展示下一代AI存储技术

当地时间3月16日至19日，SK海力士亮相在美国加州圣何塞举行的“GTC 2026”大会，重点展示其在AI时代作为基础设施核心的存储技术布局。依托与英伟达的深度合作，SK海力士在本…

秋秋
2026年3月17日
AI

英伟达进军太空计算领域星载AI性能提升25倍

当地时间3月17日，在美国加州圣何塞举行的2026年GTC大会上，英伟达正式发布面向太空应用的“太空计算”平台，推出Space-1 Vera Rubin模块、IGX Thor及Je…

AI
2026年3月17日
AI

英伟达开源 AI 模型Nemotron 3 Ultra 吞吐量效率提升 5 倍

3月17日，在美国加州圣何塞举行的 2026 年 GTC 大会上，英伟达为推动智能体（Agentic）、物理与医疗 AI 的下一波浪潮，宣布全面扩展其开源模型家族。在智能体领域，…

科技观察者
2026年3月17日
AI

黄仁勋推出英伟达版“小龙虾” NemoClaw：主打“一键安装”

3月17日，在美国加州圣何塞举行的 2026 年 GTC 大会上，英伟达推出针对“小龙虾”OpenClaw 智能体平台的 NemoClaw 软件栈，主打“一键安装”体验。在 GT…

柠萌
2026年3月17日

发表回复

登录后才能评论

英伟达AI程序员自主优化GPU核心代码，7天击败人类专家

相关推荐

发表回复