DeepSeek新模型代码曝光,最快2月发布

DeepSeek新模型代码曝光,最快2月发布

据外媒The Information本月初爆料,国内AI公司DeepSeek有望在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4。最新迹象显示,这一发布计划正变得愈发清晰。

1月20日,正值DeepSeek-R1发布一周年之际,有开发者在GitHub代码仓库中发现重要线索。DeepSeek更新的一系列FlashMLA代码中,横跨114个文件出现28处提及一个未知的“MODEL1”标识符。该标识符与已知的现有模型“V32”(即DeepSeek-V3.2)被并列或区别提及,根据代码上下文分析,“MODEL1”很可能代表一个采用了全新架构的下一代模型。

开发者进一步分析指出,“MODEL1”与现有模型在关键技术实现上存在明显差异,主要体现在键值缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。这些差异预示着新架构可能在内存优化与计算效率上进行了重要改进。此前,DeepSeek研究团队已陆续发布两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法以及一种受生物学启发的“AI记忆模块”。业界普遍推测,正在开发中的新模型极有可能整合这些最新研究成果。随着代码层面的迹象不断浮现,人工智能领域或将迎来一场值得期待的技术更新。

原创文章,作者:好奇宝宝,如若转载,请注明出处:https://www.kejixun.co/article/744013.html

好奇宝宝的头像好奇宝宝认证作者

相关推荐

发表回复

登录后才能评论