【导读】在DeepSeek引领的国产AI模型创新浪潮中,昇腾CANN生态正迎来一场效率革命。KernelCAT作为智子芯元推出的AI Agent引擎,已在DeepSeek系列工作的昇腾适配中验证了其从单点算子到完整模型的端到端自动化能力。从DeepSeek-mHC算子的40分钟从零构建加优化,到DeepSeek-OCR-2的38分钟极速适配,KernelCAT开辟了昇腾芯片到国产模型的中间层”快车道”,为国产AI生态的适配闭环提供了新的解决方案。
DeepSeek-mHC算子:40分钟架起论文到芯片的桥梁

1. 算子开发的痛点与破局
在AI模型落地过程中,算子开发作为关键环节长期面临周期长、门槛高、适配难的痛点。传统开发从论文公式到高性能AscendC kernel需要数天甚至数周的人工编码与反复调优。2025年的最后一天,DeepSeek团队发表新论文《mHC: Manifold-Constrained Hyper-Connections》(https://arxiv.org/pdf/2512.24880),提出了一种创新的流式连接机制,涉及复杂的数学变换和并行计算逻辑,对国产算力平台的适配提出了更高要求。
KernelCAT以AI+数学运筹优化的双驱动能力突破了这一瓶颈,在昇腾平台上仅用40分钟便完成了mHC_post算子的实现和交付,将传统以”天”计的开发周期压缩到”分钟”级,为CANN生态提供从学术创新到工程落地的新引擎。
2. 论文理解与算子代码生成:10分钟完成
部署在昇腾开发环境中的KernelCAT接到了这样的一个使用自然语言描述的任务需求:
“这是一个ascendc算子开发任务:
基于25年12月31日,deepseek发布的论文(mHC: Manifold-Constrained Hyper-Connections,https://arxiv.org/pdf/2512.24880),实现其中的mhc_post操作,先写测试后写实现,要保证测试覆盖面完备,精度达标。在功能版本完成后进行基线化,扩展多数据类型的支持,并尝试优化性能”
KernelCAT在不清楚mHC_post算子定义的情况下,自主搜索和阅读DeepSeek最新论文,精准提取核心公式,并自动检索GitHub开源实现,对照解析公开实现逻辑,确认与公式一致。
Plain Text
输入:
branch_output:[batch, seq_len, dim]
h_post:[num_streams]
输出:
output:[batch * num_streams, seq_len, dim]
计算逻辑为将每个token复制numStreams份,每份乘以对应权重。
在明确算子规格后,KernelCAT自动生成CPU参考实现作为基准,自动探测与加载Ascend开发环境配置,生成CMake参数并完成编译配置。
仅用10分钟,KernelCAT即生成fp32基础功能版代码,快速执行cmake与make命令完成构建,并经“硬件在环”测试验证算法逻辑准确无误。
3. 多数据类型与性能优化:40分钟极致优化
在基础版本上,KernelCAT快速实现了fp32、fp16、bf16三种主流数据类型的自动覆盖,升级边界处理,让算子快速适配训练/推理场景。在这个过程中,开发者无需关注底层细节,仅需指定目标精度。
性能优化是算子开发的核心难点,但KernelCAT将复杂调优简化为“决策式交互”,只需要同意继续优化,KernelCAT便可以自动应用CANN平台最佳实践:
•多核并行策略让每个block处理1-n个(batch, stream)组合;
•自适应UB动态tile切分,根据当前shape自动计算最优tile长度;
•进行最优并行粒度搜索,快速给出当前配置的最优blockDim。
在A2环境上经实测,KernelCAT自行优化后的性能较10分钟基础版本提升了3-6倍,而这多倍的性能优化,仅需1次人工确认。
4. mHC系列算子矩阵:一次开发多处复用
在成功完成mHC_post算子后,KernelCAT又高效拓展出mHC_res与mHC_pre两个系列算子,协同实现DeepSeek论文中完整的mHC连接架构。
mHC_res算子:通过学习权重矩阵 h_res[N×N] 实现多流之间的交叉混合,对应论文公式中的 H^res 项。在 Ascend 平台实测中,相比 torch.einsum 实现,KernelCAT 给出的版本性能提升达到 24倍-50倍。
mHC_pre算子:将 N 个并行流加权归约为单一输入,对应 H^pre 项,相比 torch.einsum 实现,实测加速比高达 24倍-52倍。
这三个算子共享同一套AscendC内核模板,KernelCAT通过智能继承历史工程骨架,仅需根据核心计算公式调整kernel实现,即可在数小时内完成新算子从开发到优化的全流程——将”一次开发,处处复用”的工程思想真正落地到算子生态。
从算子到模型:KernelCAT的全场景适配能力
KernelCAT的价值不仅体现在单点算子的高效开发上,更体现在整体模型适配工作的自动化能力上。
DeepSeek-OCR-2是DeepSeek团队于2026年1月27日发布的多模态OCR模型,在视觉编码阶段引入了DeepEncoder V2的Visual Causal Flow设计。依托CANN丰富的生态资源与KernelCAT的AI+数学运筹优化双驱动自动化流程,DeepSeek-OCR-2在昇腾Atlas A2上实现了分钟级自动化部署与稳定运行。
在模型迁移适配过程中,开发者仅需启动KernelCAT,明确迁移任务,系统便可自动完成运行环境配置与相关依赖补全,并生成完整的模型迁移计划,智能执行任务。
该案例有力印证:KernelCAT已构建起贯通“单点算子开发—整网模型迁移”的全栈适配能力——从DeepSeek-mHC实现论文公式到昇腾算子的分钟级构建,到完成DeepSeek-OCR-2多模态模型的端到端自动化迁移适配,KernelCAT作为国产AI Agent为国产AI生态的高效联通树立了新范式。

结语
如今,以KernelCAT为代表的国产中间层工具正推动全链路工作范式的根本性变革:算子开发从“周级编码”跃升至“分钟级生成”,模型迁移实现“快速解析-自动适配-智能调优”的端到端自动化。开发者角色由此重塑,从重复性编码调优中解放,聚焦于算法创新与业务设计。
这一变革不仅将单点效率提升数十倍,更构建起“芯片-工具-模型”三方协同的创新循环和共同繁荣:昇腾平台得以敏捷响应国产模型的前沿架构需求,国产模型亦能高效释放昇腾算力潜能。国产中间层工具作为关键纽带,正切实降低生态参与门槛、加速技术迭代节奏,推动硬件与模型生态从“单向适配”走向“双向赋能、共生共荣”,为构建自主可控、高效协同的中国AI产业体系注入持续动能。
mHC系列算子核心研发环节耗时40分钟高效落地,面向开源的完整工程化版本经人机配合迭代打磨,耗时约 2-3小时,因用户使用技巧与部署环境不同,复现时间存在一定差异为正常现象。
本文来自投稿,不代表科技讯立场,如若转载,请注明出处:https://www.kejixun.co/article/745367.html