KernelCAT加速昇腾生态适配，自动化交付DeepSeek-mHC算子

陈晨 • 17小时前 • 产经

【导读】在DeepSeek引领的国产AI模型创新浪潮中，昇腾CANN生态正迎来一场效率革命。KernelCAT作为智子芯元推出的AI Agent引擎，已在DeepSeek系列工作的昇腾适配中验证了其从单点算子到完整模型的端到端自动化能力。从DeepSeek-mHC算子的40分钟从零构建加优化，到DeepSeek-OCR-2的38分钟极速适配，KernelCAT开辟了昇腾芯片到国产模型的中间层”快车道”，为国产AI生态的适配闭环提供了新的解决方案。

DeepSeek-mHC算子：40分钟架起论文到芯片的桥梁

1. 算子开发的痛点与破局

在AI模型落地过程中，算子开发作为关键环节长期面临周期长、门槛高、适配难的痛点。传统开发从论文公式到高性能AscendC kernel需要数天甚至数周的人工编码与反复调优。2025年的最后一天，DeepSeek团队发表新论文《mHC: Manifold-Constrained Hyper-Connections》（https://arxiv.org/pdf/2512.24880），提出了一种创新的流式连接机制，涉及复杂的数学变换和并行计算逻辑，对国产算力平台的适配提出了更高要求。

KernelCAT以AI+数学运筹优化的双驱动能力突破了这一瓶颈，在昇腾平台上仅用40分钟便完成了mHC_post算子的实现和交付，将传统以”天”计的开发周期压缩到”分钟”级，为CANN生态提供从学术创新到工程落地的新引擎。

2. 论文理解与算子代码生成：10分钟完成

部署在昇腾开发环境中的KernelCAT接到了这样的一个使用自然语言描述的任务需求：

“这是一个ascendc算子开发任务：

基于25年12月31日，deepseek发布的论文（mHC: Manifold-Constrained Hyper-Connections，https://arxiv.org/pdf/2512.24880），实现其中的mhc_post操作，先写测试后写实现，要保证测试覆盖面完备，精度达标。在功能版本完成后进行基线化，扩展多数据类型的支持，并尝试优化性能”

KernelCAT在不清楚mHC_post算子定义的情况下，自主搜索和阅读DeepSeek最新论文，精准提取核心公式，并自动检索GitHub开源实现，对照解析公开实现逻辑，确认与公式一致。

Plain Text

输入：

branch_output：[batch, seq_len, dim]

h_post：[num_streams]

输出：

output：[batch * num_streams, seq_len, dim]

计算逻辑为将每个token复制numStreams份，每份乘以对应权重。

在明确算子规格后，KernelCAT自动生成CPU参考实现作为基准，自动探测与加载Ascend开发环境配置，生成CMake参数并完成编译配置。

仅用10分钟，KernelCAT即生成fp32基础功能版代码，快速执行cmake与make命令完成构建，并经“硬件在环”测试验证算法逻辑准确无误。

3. 多数据类型与性能优化：40分钟极致优化

在基础版本上，KernelCAT快速实现了fp32、fp16、bf16三种主流数据类型的自动覆盖，升级边界处理，让算子快速适配训练/推理场景。在这个过程中，开发者无需关注底层细节，仅需指定目标精度。

性能优化是算子开发的核心难点，但KernelCAT将复杂调优简化为“决策式交互”，只需要同意继续优化，KernelCAT便可以自动应用CANN平台最佳实践：

•多核并行策略让每个block处理1-n个(batch, stream)组合；

•自适应UB动态tile切分，根据当前shape自动计算最优tile长度；

•进行最优并行粒度搜索，快速给出当前配置的最优blockDim。

在A2环境上经实测，KernelCAT自行优化后的性能较10分钟基础版本提升了3-6倍，而这多倍的性能优化，仅需1次人工确认。

4. mHC系列算子矩阵：一次开发多处复用

在成功完成mHC_post算子后，KernelCAT又高效拓展出mHC_res与mHC_pre两个系列算子，协同实现DeepSeek论文中完整的mHC连接架构。

mHC_res算子：通过学习权重矩阵 h_res[N×N] 实现多流之间的交叉混合，对应论文公式中的 H^res 项。在 Ascend 平台实测中，相比 torch.einsum 实现，KernelCAT 给出的版本性能提升达到 24倍-50倍。

mHC_pre算子：将 N 个并行流加权归约为单一输入，对应 H^pre 项，相比 torch.einsum 实现，实测加速比高达 24倍-52倍。

这三个算子共享同一套AscendC内核模板，KernelCAT通过智能继承历史工程骨架，仅需根据核心计算公式调整kernel实现，即可在数小时内完成新算子从开发到优化的全流程——将”一次开发，处处复用”的工程思想真正落地到算子生态。

从算子到模型：KernelCAT的全场景适配能力

KernelCAT的价值不仅体现在单点算子的高效开发上，更体现在整体模型适配工作的自动化能力上。

DeepSeek-OCR-2是DeepSeek团队于2026年1月27日发布的多模态OCR模型，在视觉编码阶段引入了DeepEncoder V2的Visual Causal Flow设计。依托CANN丰富的生态资源与KernelCAT的AI+数学运筹优化双驱动自动化流程，DeepSeek-OCR-2在昇腾Atlas A2上实现了分钟级自动化部署与稳定运行。

在模型迁移适配过程中，开发者仅需启动KernelCAT，明确迁移任务，系统便可自动完成运行环境配置与相关依赖补全，并生成完整的模型迁移计划，智能执行任务。

该案例有力印证：KernelCAT已构建起贯通“单点算子开发—整网模型迁移”的全栈适配能力——从DeepSeek-mHC实现论文公式到昇腾算子的分钟级构建，到完成DeepSeek-OCR-2多模态模型的端到端自动化迁移适配，KernelCAT作为国产AI Agent为国产AI生态的高效联通树立了新范式。

结语

如今，以KernelCAT为代表的国产中间层工具正推动全链路工作范式的根本性变革：算子开发从“周级编码”跃升至“分钟级生成”，模型迁移实现“快速解析-自动适配-智能调优”的端到端自动化。开发者角色由此重塑，从重复性编码调优中解放，聚焦于算法创新与业务设计。

这一变革不仅将单点效率提升数十倍，更构建起“芯片-工具-模型”三方协同的创新循环和共同繁荣：昇腾平台得以敏捷响应国产模型的前沿架构需求，国产模型亦能高效释放昇腾算力潜能。国产中间层工具作为关键纽带，正切实降低生态参与门槛、加速技术迭代节奏，推动硬件与模型生态从“单向适配”走向“双向赋能、共生共荣”，为构建自主可控、高效协同的中国AI产业体系注入持续动能。

mHC系列算子核心研发环节耗时40分钟高效落地，面向开源的完整工程化版本经人机配合迭代打磨，耗时约 2-3小时，因用户使用技巧与部署环境不同，复现时间存在一定差异为正常现象。

本文来自投稿，不代表科技讯立场，如若转载，请注明出处：https://www.kejixun.co/article/745367.html

陈晨管理团队

0 0

产经

行业唯一！海尔智家荣获2025福布斯“循环经济实践领航者奖”

　　1月28日，2025福布斯中国商业品牌管理影响力评选结果正式公布。其中，海尔智家凭借成熟完善的家电再循环体系，为行业树立了可持续发展的标杆，荣获“循环经济实践领航者奖”，成为家…

若安丶
14小时前
产经

鸿蒙版皖事通再升级：AI服务“张口就办”，高频业务“一网通办”

从“长三角一体化发展”的战略要地，到锚定“科技创新策源地”的发展坐标，安徽省始终以制度创新为笔、以民生福祉为墨，书写着政务服务升级的时代答卷。在此背景下，安徽省一体化政务服务平台“…

陈晨
14小时前
产经

唤醒小艺，一句话喝到咖啡！瑞幸咖啡Lucky AI智能体登陆HarmonyOS

专属于鸿蒙用户的点餐体验来了！现在，只要一句话，瑞幸咖啡Lucky AI智能体就能帮你轻松搞定点咖啡全流程。例如，只需要对小艺说“用瑞幸帮我点一杯生椰拿铁”，就可以拉起选品点餐步骤…

陈晨
14小时前
产经

年前工作怎么收尾更轻松？鸿蒙版企业微信的10+新功能，给你新答案

随着春节临近，如何高效完成年终工作成为关键。企业微信鸿蒙版近期更新，带来十余项功能优化，从AI智能辅助到沟通协作效率提升，助力你有序推进年底工作，从容迎接新春假期。智能提效：让工…

陈晨
14小时前
产经

海尔冰箱联合中国高铁打造春运“新鲜专列”

　　刷新全球运营时速与里程纪录的中国高铁，代表的是“大国重器”与中国速度；品牌零售量全球18连冠的海尔冰箱，代表的是“中国智造”与民生温度。二者领域不同，今年却在春运站台温情同框。…

若安丶
17小时前
产经

闪送鸿蒙元服务“轻”装上阵，一对一配送“快”人一步！

新春将至，年货和礼品寄送等同城即时递送需求迎来高峰。近日，服务上亿用户的一对一急送平台闪送，正式在鸿蒙系统上推出元服务，搭载鸿蒙5及鸿蒙6的手机皆可使用。在应用市场或负一屏搜索“闪…

陈晨
18小时前
产经

青藤之恋鸿蒙版焕新升级，快来解锁新春流量福利，邂逅你的专属缘分

2026年春节前夕，青藤之恋针对鸿蒙平台推出重要版本更新，不仅完善了核心功能，更深度融入鸿蒙系统特性，结合新春特别活动（2月9日至2月22日），为用户带来更流畅、安全、高效的社交服…

陈晨
18小时前
产经

鸿蒙版小宇宙新春三连：碰、控、听，全丝滑

你有没有过这样的时刻？春运高铁上戴上耳机，刚点开一集超赞的播客，却被爸妈一句“到站了没？”打断；年夜饭后想安安静静听点深度内容，结果切个App就找不到刚才听到哪儿了；或者刷到…

陈晨
18小时前
产经

海尔冷柜2025年全球份额20.4%，连续15年第一

　　2月7日，海尔智家2026年战略发布大会在青岛召开。海尔智家董事长兼总裁李华刚在阐述2026年战略发展路径时表示，海尔智家将打造以用户为中心的平台服务型科技生态企业，并通过“1…

若安丶
19小时前
产经

以一抵三，海尔酒柜连续16年全球份额第一

　　新春临近，家庭焕新需求持续攀升。与此同时，酒水消费趋势悄然转变，白酒等应酬类酒水需求回落，红酒等兼具养生属性与品质感的饮品需求升温。在此背景下，为家庭添置一台专业酒柜，成为不少…

若安丶
19小时前
海尔智家要建以用户为中心的平台服务型科技生态企业

　　随着消费需求日益个性化和场景化，企业正面临从“卖产品”到“留用户”的深度转型。能否建立可持续的用户连接，已成为衡量企业长期竞争力的关键。　　2月7日，海尔智家在青岛召开了20…

若安丶
产经 19小时前
产经

别被普通电视忽悠了！RGB三色控光才是百吋电视分水岭

　　不知道你有没有发现，现在的年味儿变淡，并不是因为鞭炮声少了，而是因为客厅失去了“引力”。春节聚会，往往演变成了换个地方大家一起低头刷手机。　　想要把所有人——尤其是挑剔的年轻…

若安丶
19小时前
三星显示器为2026年米兰科尔蒂纳冬奥会实时执裁与转播制作提供支持

摘要：三星绘域ViewFinity S8与玄龙骑士电竞显示器Ark助力裁判与转播团队清晰、精准地回看高速赛事瞬间 2月12日，三星电子作为奥运会及残奥会全球合作伙伴，宣布为2026…

陈晨
产经 20小时前
产经

两大“世界冠军”春运同框：海尔冰箱登上中国高铁专列

　　一年一度的春运，是中国人对“家”的集体奔赴。2026年春运途中，一场引人注目的“同框”正在上演：海尔冰箱与中国高铁两大世界冠军，以“新鲜专列”为载体，共同开启了一场“鲜到家”的…

若安丶
21小时前
从大厨房、大暖通到大家居，海尔智家打破行业边界

　　在家电行业竞争白热化的阶段，如何跳出单一品类竞争或者功能比拼，成为企业必须要思考的问题。　　2月7日，2025年第七届海尔智家全球创客颁奖典礼暨2026年战略发布大会在青岛召…

若安丶
产经 22小时前
产经

用户信赖不可撼动！海尔冷柜全球品牌销量连续15年第一

　　2月9日，北京等多地宣布升级家电以旧换新政策，大力推动智能家电普及，这标志着智慧家庭建设正从概念走向规模化落地的新阶段。然而，在家电企业争相做大生产规模的背景下，真正读懂用户需…

若安丶
1天前
产经

荣耀首届智能体创意大赛圆满收官获奖作品正式揭晓

荣耀首届智能体创意大赛历时6个月圆满落幕，大赛吸引超2000名开发者参与，征集1700余件智能体作品，活动总曝光量突破1.3亿次，参赛群体覆盖独立开发者、校园用户与企业机构，形成多…

陈晨
1天前
三星携手国际奥委会助力青年筑梦未来

摘要：三星Solve for Tomorrow 项目大使任命仪式于2026年米兰科尔蒂纳冬奥会期间举行，这些来自世界各地的青年创新者，从“体育与科技（Sport & Te…

陈晨
产经 1天前
产经

想在马年投资布局先人一步？鸿蒙版同花顺高效分析装备已升级

马年春节在即，股市进入节前布局关键期。鸿蒙版同花顺近期迎来重磅升级，不仅独家上线「诊大盘」功能，帮助股民更精准把握指数情绪拐点、优化投资决策，还同步优化个股等多项实用工具与同花顺特…

陈晨
1天前
产经

“中国式”囤积过年？今年试试不一样的辞旧迎新

　　小年一过，年味更浓了，刻在中国人骨子里的“囤货过年”情结也随之苏醒。新衣多备几套、食材多些花样、礼盒多多益善……你家是否也已开启这样的“年货模式”？　　其实，随着生活观念的变…

若安丶
1天前

发表回复

登录后才能评论

KernelCAT加速昇腾生态适配，自动化交付DeepSeek-mHC算子

相关推荐

发表回复