月之暗面Kimi开源Moonlight大模型:训练效率翻倍,技术细节全公开

月之暗面Kimi开源Moonlight大模型:训练效率翻倍,技术细节全公开

昨日,月之暗面Kimi发布《Muon可扩展用于LLM训练》技术报告,正式推出基于Muon优化器训练的混合专家模型Moonlight。该模型提供30亿和160亿参数两个版本,通过5.7万亿token训练数据,在更低浮点运算量(FLOPs)下实现性能突破,显著提升帕累托效率边界‌。
Moonlight-16B-A3B作为核心测试模型,总参数量15.29亿,激活参数2.24亿。其采用的Muon优化器通过权重衰减策略和参数更新幅度调整技术,将训练效率提升至AdamW优化器的2倍,且无需复杂超参数调优‌。团队开发的分布式Muon版本优化了内存使用和通信效率,已在GitHub开源‌。
此次开源内容包含预训练模型、指令微调模型及训练中间检查点,覆盖从算法到工程的全链条技术细节。Moonlight模型采用MIT许可证,允许商业用途,其激活参数仅需3亿即可运行,大幅降低算力门槛‌。
月之暗面此次发布正值大模型开源社区活跃期,其“训练效率翻倍”的成果或将推动行业优化器技术迭代。Muon优化器的扩展性验证和Moonlight模型的开源策略,已引发开发者社区广泛讨论‌。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/707652.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论