
全球人工智能顶级会议NeurIPS 2025于昨晚公布获奖名单,阿里巴巴通义千问团队凭借论文《Attention Gating Makes Better Foundation Models》从2万篇投稿中脱颖而出,成为4篇最佳论文中唯一的中国团队。本届大会录取率仅25%,竞争强度创历史新高,凸显了该成果的含金量。
论文创新性地提出了一种名为“滑动门”的注意力门控机制,在标准注意力层后加入可学习门控,实时筛选参与下游计算的关键注意力头与token。团队形象地将这一过程比作“安检”,有效拦截无效信息,提升计算效率与模型鲁棒性。实验数据显示,在3.5万亿tokens的训练规模下,1.7B稠密模型与15B MoE模型仅需增加1%参数,即可实现困惑度降低0.2、MMLU提升2分的显著效果,Pile数据集各子域均获一致提升。
这一技术突破已应用于即将发布的Qwen3-Next大模型,阿里同步开源了代码与1.7B实验模型至GitHub,供全球社区验证。通义千问团队表示,未来将进一步扩展门控机制至多模态与长文本领域,推动“会自我过滤的注意力”成为下一代大模型的标准组件。此次获奖不仅标志着中国AI基础研究能力的国际认可,也为大模型的高效训练提供了新范式。
原创文章,作者:柠萌,如若转载,请注明出处:https://www.kejixun.co/article/739906.html