在硅谷被大模型训练的算力军备竞赛折腾得焦虑不堪,科技巨头们正为电网容量和GPU短缺发愁的当下,中国算力产业的底层逻辑正在悄然发生一次“特异性突变”。刚刚在北京中关村落幕的“鲲鹏昇腾开发者大会2026”(KADC2026),释放出了一个极具穿透力的信号:算力基础设施的建设范式,正在从“纯粹堆砌算力规模的Scaling Law”向“驾驭智能体(Agentic AI)的复杂系统工程”硬核变轨。
更将“意图协同”、“闭环控制”、“超节点(Scale Up)”、“内存池化”以及“Harness(驾驭模型系统)”放在了最核心的位置。这不仅是一场技术的迭代,更是一场关于中国如何用系统工程方法,在异构算力时代实现弯道超车的底座保卫战。

为什么Agent时代算力底座必须重构?
在过去很长一段时间里,业界对AI算力的认知存在一种非黑即白的线性思维:传统的云计算、大数据、数据库、存储等通用负载用CPU解决,大模型的矩阵乘法、深度学习训练用GPU解决,两者的配比通常是固定的、割裂的。但进入2026年,随着个人智能体、企业级智能体以及无边际长序列大模型的爆发,这种旧架构正在被无情撕裂。
鲲鹏专家在大会上给出了一个惊人的趋势预测,未来数据中心内CPU和GPU的配比,要从现在的1:8走向后面的1:4,甚至1:1,乃至于最后CPU实现反超,达到2:1或4:1的比例。这个看似反直觉的判断,底层逻辑来自于Agentic AI的运行本质。当智能体从“被动问答”走向“主动执行”时,它不再是一个纯粹的神经网络。数据表明,平均一次Agent任务需要调用50次推理,在此期间,Agent需要频繁进行状态判断、逻辑拆解、工具调用,以及持续调用传统云、大、数、存的接口。每一次调用、每一个逻辑分支、每一次QPS/TPS的爆表,其负载的核心都在CPU而不在GPU。智能体时代需要的不再是一个单一的“大肌肉”智算,而是一个拥有超强神经中枢和调度能力的“通算+智算融合”复合体。
从第一性原理来理解,没有一个闭环控制的系统一定是没法达到一个稳态的。这一观点一针见血地指出了传统操作系统在AI时代的尴尬境地。在传统IT架构中,操作系统负责抽象底层的硬件资源(CPU、内存、网卡),将其整合成标准化接口供上层应用调度。但在AI原生时代,面对万亿参数的模型和不确定的Agent工作负载,操作系统必须从“资源抽象”迈向“意图协同”。业界近期大火的“Harness(驾驭系统)”概念,本质上就是要求操作系统成为驾驭AI模型的闭环控制系统。只有操作系统和CPU上的软件栈能够实时、闭环地控制模型的输入、输出、上下文缓存及硬件配置,大模型才有可能在企业真实业务中真正达到稳态落地。
鲲鹏超节点:用灵衢弹性架构打破物理边界
面对复杂的Agent工作负载和不确定的技术变局,华为的解法充满了务实的解构主义哲学——唯有以不变应万变,把根技术打磨成最硬的武器,再用系统工程能力进行全栈组合。在通用计算和数据底座层面,这个核心武器被称为鲲鹏超节点(Scale Up),而它的核心骨骼,则是自研的“灵衢总线”与“灵衢协议”。
传统多服务器集群之间的数据交互,必须经过网卡、走网络协议栈(如传统的TCP/IP或RDMA),其带来的时延通常在微秒级甚至毫秒级。而鲲鹏超节点的核心突破在于,利用灵衢总线实现了硬件级别的TB级互联带宽、百纳秒(ns)级时延,以及全局内存的统一编址。这意味着,在应用侧看来,多台机器的内存被揉成了一块巨大的、透明的全局资源池。CPU与CPU之间的通信,不再是“打包、封装、网络传输、再解包”的传统网络通信,而是直接通过CPU硬件指令去直连访问对端内存的指令级读写。
这一架构在应用侧落地时展现出了三大硬核场景。首先是削峰填谷的弹性复用,企业在面对峰值负载时,传统架构要求每台服务器都按峰值配置内存,导致极大的闲置浪费,而在池化内存下,只要不同节点的峰值不是同时到来,系统就能自动实现“峰谷互补”,使资源使用效率最大化。其次是元数据的离散共享,在大数据或分布式数据库中,传统RDMA即使传输极小的数据,也至少要封装一个数据块,造成严重的性能放大,而鲲鹏池化内存支持细粒度访问,最多只影响一条缓存行(Cacheline),天然适合跨节点共享高频、微小的核心元数据。最后是Agent高密部署下的内存镜像减容量,在强化学习场景下,往往需要同时拉起上万个执行路径相似的Agent沙箱。由于底层物理内存实现了共享,系统只需在物理上保留一份基础镜像文件,其他节点通过共享快照和Remote Fork技术进行秒级拉起,不仅省去了海量的物理内存,还将沙箱回滚时延压缩到了10毫秒级,直接让Agent任务成功率提升10%以上。
除了内存大、带宽足,在单机能效比上,新一代鲲鹏950采用了超高密度多核架构,并在业界首创了基于ARM架构的SMT(同时多线程)技术。通过让单个物理核心拥有多线程处理能力,使得虚拟核心(Vcore)数量直接翻倍。配合采用灵衢SGL特性降低20%通信时延、透明UBSocket时延再降40%以及共享TP技术降低90%通信内存占用等关键通信加速技术,鲲鹏超节点为Agent在云端的高并发、极致超分部署提供了最坚实的算力底座。
昇腾全栈革新:从“可用”走向“好用”的智算进化
如果说鲲鹏解决的是智能体在执行任务时的“身体协同与逻辑控制”,那么昇腾则是在正面攻克万亿参数大模型推理的“思维成本瓶颈”。在过去,国产AI芯片常被开发者吐槽“虽然算力指标好,但是生态封闭、资料少、迁移难、编译调优困难”。而在今年,昇腾最核心的革新动作,就是将软件全面开源开放,把易用性当成持之以恒的长期战略来打。
一个无法融入全球主流开源社区的计算架构是没有未来的。昇腾在CANN(异构计算架构)全栈全面开源的基础上,展现出了极高的开放姿态。在生态兼容层,昇腾完成了Triton和TileLang双引擎的全面适配,开发者如果有自定义算子,完全不需要去硬啃复杂的底层汇编,直接用Triton就能在昇腾上实现快速开发,高效释放平台算力。在AI框架层,昇腾全面支持PyTorch生态,实现了2300多个API与社区的百分之百对齐,其图模式加速与社区40+模型入图能力对齐,分布式加速更是实现了20+主流大模型的FSDP2开箱即用。这意味着,开发者从GPU环境把算法和应用迁移到昇腾上,代码几乎不需要大动,体验和习惯可以保持绝对的一致。此外,全新升级的MindSpore、MindSpeed、MindIE、MindStudio等系列软件栈通过组件化解耦与工具链智能化,全流程提升了开发调试效率。
今年以DeepSeek V4为代表的万亿参数(MoE架构)大模型以及兆级长上下文(Million Context)的爆发,给底层算力带来了极大的通信和显存压迫。为了打破这堵墙,昇腾950在单芯片上做到了最大4TB的内存带宽,并且在系统层面将超节点互联规模大幅提升,最大可支持高达8K级别的超节点集群。在软件与算法层面,昇腾提前布局了大规模专家并行(Expert Parallelism)方案,利用超节点之间卡与卡极高的物理带宽,进行极致的计算与通信并行优化;同时引入内存语义技术进一步降低访存时延。更重要的是,新一代950芯片原生支持了MXFP8、FP4等低比特数据格式,这让大模型在后量化、低精度的推理场景下,计算效率呈倍数级飙升,显存占用直接砍半,彻底把Token的消耗成本砸了下来,让万亿级模型得以在实际业务中“发布即最优”。
写在最后:面向开发者的真金白银与“淬火行动”
在任何一个计算生态里,硬件是骨骼,软件是肌肉,而开发者才是流淌在生态里的血液。为了把“可用”真正变成开发者的“好用”与“易用”,鲲鹏与昇腾今年在生态建设上的玩法变得极为务实和下沉。昇腾为此设立了首批2000万元的创新激励基金,面向个人开发者,单个社区任务最高奖励可达10万元,并按月度活跃度和年度排名叠加额外津贴。同时,昇腾还投放了10000卡免费算力资源,支持一键自动部署,让开发者平均2分钟就能跑通首个Demo。
除了个人的真金白银激励,面向企业伙伴的技术赋能也迎来了全面升级。针对AI技术一个月就翻新一次、开发者难以跟上技术迭代的痛点,昇腾用全年11场“淬火行动”在全国给伙伴进行硬核赋能。这种赋能不是传统的短期宣讲,而是持续三到五天的闭关式培训,其中三分之一的时间用于课程讲解,剩下的时间全部用于上机操作,让企业开发者在真实的算力环境下掌握最新的Agent开发Skills。鲲鹏同样启动了2026“鲲鹏展翅计划”,开放1500多台物理服务器和3000多个虚拟机资源供生态适配,并联合业界头部企业打造了全新的、能力导向的“开发者认证”标准,推动与工信部、教育部的认证互信。
在硅谷还在苦苦等待下一代更完美的单体“超级芯片”来拯救 Scaling Law 的时候,鲲鹏与昇腾选择了一条更加具有东方工业智慧的路径:承认硬件的单体物理极限,通过重构操作系统、打通池化内存、开源底层软件栈,用全栈深度的系统工程协同去对冲AI时代的不确定性。
大模型和智能体的竞赛,上半场比拼的是资本的厚度与模型的参数规模,而下半场则必定回归商业本质,比拼谁的算力底座更便宜、谁的操作系统更懂意图协同、谁的超节点延时更低、谁的开发者生态更繁荣。在这场通往Agentic AI时代的硬核变轨中,鲲鹏与昇腾通过软硬协同的根技术创新,显然已经筑好了那个最稳固、最抗造的底层闭环系统。
原创文章,作者:小科同学,如若转载,请注明出处:https://www.kejixun.co/article/753345.html