昇思人工智能框架峰会| MindSpore Transformers套件架构升级，实现LLM模型天级迁移，工作量降低85%+

陈晨 • 2025年12月12日 14:50:46 • 产经

据悉，昇思MindSpore开源社区将于 2025 年 12 月 25日在杭州举办昇思人工智能框架峰会。本次峰会的昇思人工智能框架技术发展与行业实践论坛将讨论到昇思MindSpore大模型套件技术进展与实践，MindSpore Transformers SIG的核心贡献者将在昇思开发者动手实践workshop设立开发者动手实践体验，带领开发者体验使用昇思MindSpore Transformers大模型套件实现高效训推。本文对MindSpore Transformers套件的架构升级进行了深入解读，揭示其如何实现迁移效率的提升。

为应对大模型开发中生态割裂、迁移复杂与并行编程难度高的挑战，MindSpore Transformers套件完成Mcore架构重大升级。本次升级通过极简化的模型迁移开发范式与原生支持Hugging Face生态的零修改复用两大核心技术革新，显著降低大模型在昇腾平台上的开发与部署门槛，实现从开源模型到高效训练、推理的端到端敏捷链路。

模型迁移开发范式革新——从“重复造轮子”到“配置化搭建复用”

传统模型迁移是一项繁重且低效的工作：开发者不仅需要花费数周时间从零开始重写模型的配置、核心代码和分词器，还要在不同但结构相似的模型间进行大量的重复实现，导致“重复造轮子”。此外，训练与推理接口的高度耦合使得代码维护困难，针对某个主力模型的深度优化也难以被其他模型复用，整体迭代和共享效率低下。

如今，全新的MCore架构通过深度拥抱开源生态与模块化设计，彻底重构了这一流程（如图1）。我们建立了模板化、声明式的模型开发范式，将开发重心从编写大量代码转向灵活的配置定义；并对Transformer核心组件进行了标准化接口抽象，确保各项高性能优化能力能在所有模型中沉淀和共享；其次，实现了对Hugging Face生态的零修改复用，可以直接使用其模型配置与分词器。最终，用户的主要工作量被简化为轻量的配置适配，从而将模型迁移的整体工作量降低了90%，成功实现了从“周级”到“天级”的敏捷迁移。

昇思人工智能框架峰会| MindSpore Transformers套件架构升级，实现LLM模型天级迁移，工作量降低85%+

图1 Mcore架构升级

具体而言，基于代理模式的设计思想，我们底层定义了GPTModel通用预训练模型基类，封装了绝大多数同构模型（如Qwen、DeepSeek、Llama）的共性结构。外层以代理方式实现Hugging Face式的表层实现（见图2），使得使用方式和Hugging Face社区一致，但降低了维护成本。

图2 基于代理模式的Hugging Face-Style模型实现

如图2所示，针对训练和推理两大场景，对于每个模型我们实现了训练、推理两个模型接口，并在实际任务中根据训练或推理场景，通过工厂类来获取训练或推理的模型实例。同时我们了训练和推理两套高阶transformer接口，针对于训练和推理所需的并行优化与底层算子的不同。提供的接口包含Attention、MLP、Embedding等等的Transformer典型结构（如图3），封装了高阶的并行能力，用户只需配置每种并行模式的切分数量，而无需关注接口中每个算子的切分逻辑。并统一使用了Mint高精度算子，做到了接口级的精度对齐。

图3 Transformer相关高阶并行接口

基于此，我们引入了ModuleSpec声明式配置机制。开发者无需再深入底层，硬编码式地逐行编写或修改模型的前向传播代码。而是可以像搭积木一样，通过简洁的ModuleSpec接口，声明式地指定：“在这里使用Multi-Head Attention算法”、“在那里采用SwiGLU激活的MLP”。系统便会自动将这些标准化、模块化的组件，按照基类定义的模板组装成完整的模型。这种机制不仅让模型搭建变得灵活高效，便于快速实验不同组件组合，其清晰的模块边界更使得对Attention、Norm等单一模块进行独立的精度对齐与性能调优成为可能，大幅提升了开发调试的效率。

图4 基于ModuleSpec灵活搭建模型

无缝对接Hugging Face生态——零修改复用模型配置与权重

Mcore架构设计的原则之一是生态友好，核心目标是与主流开源社区“说同一种语言”，实现Hugging Face生态的零修改、开箱即用，将开发者的适配成本降至最低。

Mcore架构实现了对Hugging Face模型仓库（Model Hub）的本地读取，包括对模型配置、模型权重的读取与自动转换，以及Tokenizer分词器的复用，用户仅需在Yaml配置文件中配置模型仓库的本地地址，即可加载模型配置、权重和Tokenizer分词器。

• 配置自动转换：通过复用Hugging Face模型的配置类configuration_model.py，用户可直接使用来自Hugging Face的config.json配置文件。Mcore通过配置装饰器机制，在运行时补全MindSpore Transformers的特有参数，并删除无关配置参数，最后自动转换成统一的TransformerConfig，以实例化模型结构（如图5）。

图5 适配Hugging Face配置

• 权重自动转换：通过架构内置的自动化权重名称映射系统，直接加载Hugging Face标准的safetensors权重文件。对于新增模型，仅需实现权重参数名转换的映射表，即可在加载权重时自动将Hugging Face社区模型的参数名称映射至Mcore的内部结构。用户无需关心权重的分布式切分，训练和推理场景下权重均可进行自动切分并加载。

图6 适配Hugging Face权重

• Tokenizer分词器复用：MindSpore Transformers现已接入Hugging Face Tokenizer，通过读取模型仓库中的词表文件和分词器配置，进行实例化并用于数据编解码。

Mcore架构模型迁移流程解读——模型三步标准化迁移

基于Mcore架构迁移一个全新的模型，开发者通常只需准备三类核心文件：

1、模型配置类文件：继承Hugging Face原配置，通过装饰器补全所需配置，忽略无关配置。

2、模型类文件：继承自GPTModel等基类，通常仅需百行代码定义特殊结构。

3、权重参数映射文件：声明Hugging Face与Mcore间的参数名对应关系。

以Qwen3为例，主要包含以下几类核心文件：

• 模型配置类文件：configuration_qwen3.py

定义了Qwen3的模型配置。直接复用了Hugging Face的配置定义，并加入了装饰器声明需要补全和忽略的配置项。

以下代码片段展示了装饰器部分：

• 模型类文件：modeling_qwen3.py、modeling_qwen3_infer.py、model_qwen3_train.py

分别定义了Qwen3的模型工厂类、推理模型和训练模型。推理和训练模型使用GPTModel抽象接口和ModuleSpec机制搭建模型结构。

以下代码片段展示了Qwen3训练模型的构造声明部分：

• 权重参数映射文件：utils.py

定义了Qwen3权重参数的映射表，映射Hugging Face模型参数和MindSpore Tranformers模型参数。

以下代码片段展示了Qwen3权重参数的映射表：

Mcore架构的新迁移模式将模型迁移的开发工作量降低了一个数量级。以迁移DeepSeek-V3为例，与原有架构的代码量对比如下（单位：代码行数loc）：

“一键”启动Hugging Face模型微调与推理

开发完成上面章节介绍的三类文件后，可以通过MindSpore Transformers的通用流程，读取Hugging Face下载的模型仓库，“一键”快速拉起微调和推理任务。下面以Qwen3-0.6B为例，展示了拉起微调和推理的具体步骤：

1、前置准备

请参考安装指南（https://www.mindspore.cn/mindformers/docs/zh-CN/r1.7.0/installation.html）准备MindSpore Transformers的运行环境，选择1.7.0版本的MindSpore Transformers，安装配套版本的依赖软件。

从Hugging Face下载Qwen3-0.6B（https://huggingface.co/Qwen/Qwen3-0.6B/tree/main）仓库至本地。

2、启动微调任务

执行以下命令启动微调任务：

上述命令执行完毕后，多卡训练任务将在后台执行，过程日志保存在./output/msrun_log下，使用以下命令可实时查看训练状态：

更多训练的相关说明请参考训练指南（https://www.mindspore.cn/mindformers/docs/zh-CN/master/guide/llm_training.html）。

3、启动推理任务

准备推理任务的配置文件predict_qwen3.yaml。执行以下命令启动单卡推理，支持在命令参数中直接修改yaml文件中的配置。其中设置pretrained_model_dir为步骤1中下载的Qwen3-0.6B仓库地址。

上述命令执行完毕后，日志会打印在控制台。出现如下结果，证明推理成功。

更多推理的相关说明请参考推理指南（https://www.mindspore.cn/mindformers/docs/zh-CN/r1.7.0/guide/inference.html）。

亦可参考服务化部署指南（https://www.mindspore.cn/mindformers/docs/zh-CN/r1.7.0/guide/deployment.html）进行模型部署（）。

总结

MindSpore Transformers套件的Mcore架构升级，是一次以开发者效率和生态兼容性为核心的系统性工程。通过实现与Hugging Face的零修改复用，它消除了框架迁移的主要障碍；通过提供极简的ModuleSpec模型搭建机制，它将开发重心从重复编码转向配置化复用搭建，减少85%+迁移工作量；通过提供高阶并行接口，它让大模型训推实现配置化并行和接口级精度对齐。

这套组合方案为企业和研究机构在昇思生态上快速落地、迭代大模型提供了坚实的技术底座，使其能更敏捷地响应技术变化，将资源聚焦于模型创新与应用本身。

本次在杭州举办的昇思人工智能框架峰会，将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表，共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约，携手打造开放、协同、可持续的人工智能框架新生态！

本文来自投稿，不代表科技讯立场，如若转载，请注明出处：https://www.kejixun.co/article/740884.html

陈晨管理团队

0 0

产经

中兴系列终端亮相MWC26 原生AI手机、AI宠物、游戏新品引领创新潮流

3月2日，在2026世界移动通信大会，中兴通讯终端业务携全场景AI终端亮相，全面展现“AI for All”整体战略与游戏重点赛道的创新成果。首款AI原生手机努比亚M153豆包手机…

陈晨
2分钟前
产经

华为助力全球运营商，释放5G-A潜能，平滑向6G演进；深耕AI-Centric 网络三层注智，迈向全面智能化

[西班牙，巴塞罗那，2026年3月2日] 智能体互联网时代正加速到来，在MWC26 巴塞罗那期间，华为以“迈向全面智能化”为主题，发布U6GHz全场景系列化产品，充分释放5G-A潜…

陈晨
40分钟前
2026 小家电选购推荐：从研发数据到生产线，揭秘小熊电器背后的硬核实力

一款小熊电器的爆品，是如何诞生的？在2026年的小家电市场，“小熊电器质量怎么样”依然是许多消费者下单前的灵魂拷问。面对那些高颜值的产品，人们总忍不住追问：这究竟是“样子货”，还…

陈晨
产经 58分钟前
产经

开学复工用小艺，深度研究、文档处理秒应答，办公学习都高效

年后开工返校，无论是追求高效为工作奔忙的职场人，还是重返校园开始新学期的学子、远去海外求学的留学生，都面临着新的挑战。如何更从容高效地进行深度学习、考试备考、高效工作、规划留学攻略…

陈晨
2小时前
产经

海尔净水首创自净化滤芯，寿命8年行业最长

　　早上起床接的第一杯水，能直接喝吗？恐怕不行。NSF《家用净水系统性能白皮书》指出，超80%传统RO净水器因滤芯残留积水，隔夜后首杯水TDS值飙升，存在异味、重金属析出风险。　…

科技探索者
17小时前
三星Galaxy Z TriFold：把电影级沉浸视听体验装进口袋

刷短视频、看影视剧、玩游戏……如今智能手机已经成为人们日常的影音娱乐终端，是大家休闲放松的必备设备。不过，相比于平板、PC等设备，手机屏幕的大小一直是制约其娱乐体验的最大短板，但平…

陈晨
产经 18小时前
产经

100吋电视怎么选？从“人上人”到“夯”，一篇看懂！

　　春节的余温还未散去，春季家装季就已经扑面而来。对于很多刚搬进新家或者想把客厅“排面”拉满的朋友来说，买电视几乎成了现在最纠结的事儿。尤其是当你的目光锁定在100吋这个“巨幕”级…

若安丶
21小时前
产经

535亿小游戏市场增速领跑，鸿蒙无网小游戏成MWC沿途一景

2026年世界移动通信大会（MWC）如期而至，奔赴西班牙巴塞罗那的旅途，也成为众多参展人员的共同记忆。飞往巴塞罗那十余个小时的“无网”飞行一直是许多人心中“最难熬的时光”。但今年，…

陈晨
22小时前
产经

三星AI神黑钻热泵洗烘旗舰：当AI重新定义洗衣美好生活由此开启

洗衣从来不是一件易事：从不同程度的污渍、奢俭有别的面料，到五花八门的材质、洗涤剂，甚至复杂多样的洗涤程序，人们需要反复思考并做出决策。当人工智能遇上洗衣，生活将有何不同？三星研发团…

陈晨
1天前
MWC 2026 |华为发布面向5G-A的承载网架构，筑就Agentic MBB时代新底座

[西班牙，巴塞罗那，2026年2月28日] MWC26巴塞罗那开幕在即，华为发布Agentic MBB时代的5G-A移动承载网架构，以10GE/25GE到站、L3到站、端到端SRv…

陈晨
产经 1天前
产经

MWC26 巴塞罗那 | 华为将宣布A2A-T软件开源计划，加速智能体通信标准应用

[西班牙，巴塞罗那，2026年2月28日] 在2026年世界移动通信大会（MWC 2026）即将召开之际，华为宣布，将于大会期间正式启动A2A-T（Agent-to-Agent&n…

陈晨
1天前
产经

华为发布U6GHz全系列产品，释放5G-A潜能，开启6G序章

[西班牙，巴塞罗那，2026年3月1日] 在MWC26 巴塞罗那期间，华为发布U6GHz全场景系列化产品和解决方案，以创新技术充分释放5G-A网络潜能，并全面支持面向6G的平滑演进…

陈晨
1天前
产经

海尔AI质检：一次2秒准确率近100%

　　2月27日，海尔青岛洗衣机互联工厂内一片繁忙景象，一台台洗衣机正有序下线。在总装工序，AI视觉检测设备正为每一台洗衣机快速“体检”，单台检测仅需2秒，准确率近100%，在大幅提…

科技探索者
2天前
产经

央视报道卡萨帝AI之眼厨电让烹饪更省心

　　2 月26日，在央视财经频道《经济半小时》智能家电专题报道中，青岛市民李芊蒨向记者展示了家中的卡萨帝AI之眼厨电。节目中，李女士家中的卡萨帝烟机、灶具正在工作，灶上煮着饺子的同…

秋秋
2天前
产经

2026最对的消费，就是给家里换了台百吋大屏！

　　要说2026年我做的最正确的决定，就是给家里换了一台海信百吋大屏。　　原因特简单，过年嘛，一家人好不容易聚齐，就该其乐融融、热热闹闹。往年吃年夜饭，电视开着也就是个背景音，亲…

李森
2天前
十年磨一“屏” 三星折叠屏的形态革命与用户中心论

在智能手机创新迈入“微创新”瓶颈期的当下，折叠屏是为数不多还能点燃消费者激情的火种。而回望这条从概念到多元形态的演进之路，有一个名字始终无法绕开——三星。从2015年柔性屏技术的暗…

陈晨
产经 2天前
产经

三大齿轮精准咬合：三星Galaxy S26 系列如何夯实“硬核底座”，释放“无感交互”

北京时间２月２６日凌晨，三星Ｇａｌａｘｙ　Ｕｎｐａｃｋｅｄ全球发布会如期举办，正式向全球市场推出新一代旗舰产品——Ｇａｌａｘｙ　Ｓ２６系列。这场发布会不仅带来了一款旗舰终端，更让行…

陈晨
2天前
三星Galaxy Z TriFold用户评价大揭秘三折手机究竟表现如何？

在当前的智能手机市场中，折叠屏技术已成为检验厂商研发实力的重要标尺。作为折叠形态的终极探索，三星首款三折叠机型Galaxy Z TriFold自亮相以来便引发了广泛关注。如今这款产…

陈晨
产经 2天前
产经

春日焕新家：从穿衣到饮食三星AI神系列家电让健康生活全面开启

冬去春来，万物复苏，在这个乍暖还寒的时节，流感病毒仍在暗处潜伏，花粉柳絮即将漫天飞舞，衣柜里沉睡一冬的春装亟待唤醒，餐桌上也需要更多新鲜滋味来迎接春天，健康成为春日生活的主旋律。三…

陈晨
2天前
产经

不止于豪华，尊界S800首发新激光雷达，为L3时代的到来铺路

在辅助驾驶的感知世界里，如果说过去的雷达是“近视眼”，只能模糊看到前方有一团黑影；那么，最新的技术突破，则像是给车辆换上了一双“超级眼睛”，不仅能看清200米外的是行人还是宠物，甚…

陈晨
3天前

发表回复

登录后才能评论

昇思人工智能框架峰会| MindSpore Transformers套件架构升级，实现LLM模型天级迁移，工作量降低85%+

相关推荐

发表回复