
近日,深度求索公司(DeepSeek)发布了一篇由创始人梁文锋署名,并与北京大学王选计算机研究所团队合作的重要论文,提出为Transformer架构引入“条件记忆”模块,直接补全了其原生缺乏的知识查找机制。论文明确指出,这一创新将被视为下一代稀疏模型不可或缺的建模原语。
该研究指出,现有Transformer在处理语言时,被迫将两种任务混为一谈:一是需要深度计算的动态推理,二是对静态知识的简单检索。例如,模型识别“戴安娜王妃”这样的固定实体,往往需要消耗多达6层注意力资源进行渐进式特征拼凑,本质上是用昂贵计算重建静态查找表,严重浪费了本可用于复杂推理的网络深度。
为此,团队提出了名为Engram的具体实现模块。其原理回归“查表”思路,利用一个巨大的词表专门存储实体名称和短固定短语,实现O(1)复杂度的知识检索。这一设计巧妙融合了传统N-gram的高效与现代Transformer的动态能力,成功解决了存储爆炸与多义性挑战。实验显示,融入该记忆模块的27B参数模型性能显著超越同规模纯MoE模型,并能将简单识别任务压缩至1-2层内完成,从而释放更多计算资源用于高级推理。
原创文章,作者:net,如若转载,请注明出处:https://www.kejixun.co/article/743592.html