
昨日下午,人工智能企业DeepSeek正式发布一项突破性研究成果,推出名为“流形约束超连接”(manifold-constrained Hyperconnection, mHC)的新型神经网络架构,旨在解决传统超连接(HC)在大规模模型训练中普遍存在的不稳定与内存开销问题。该架构由解振达、韦毅轩、Huanqi Cao三位研究员领衔,DeepSeek创始人兼CEO梁文锋亦位列作者名单,彰显团队对底层架构创新的深度参与。
传统超连接虽显著提升了模型性能,却因过度扩展残差路径,破坏了残差连接固有的恒等映射特性,导致训练过程震荡、收敛困难,并伴随严重的内存访问瓶颈。mHC架构通过将超连接的参数空间投影至特定流形流形,重新约束其拓扑结构,在保留多样化连接优势的同时,精准恢复了恒等映射的数学稳定性。这一设计不仅从理论上重构了残差网络的表达边界,更在工程层面实现了高效的内存调度与计算优化。
实验结果显示,mHC在千亿参数级模型训练中表现卓越,相较传统HC架构,收敛速度提升23%,显存占用降低18%,且在语言建模与多模态任务中均实现稳定性能增益。研究团队指出,mHC并非替代方案,而是对现有超连接体系的系统性升级,为未来基础模型的架构设计开辟了新路径。
目前,相关论文已公开,开源代码预计于近期发布,业界普遍预期其将推动下一代大模型训练范式的演进。
原创文章,作者:若安丶,如若转载,请注明出处:https://www.kejixun.co/article/742828.html