
阿里云通义团队今日正式发布下一代基础模型架构Qwen3-Next,并开源基于该架构的Qwen3-Next-80B-A3B系列模型(含Instruct与Thinking版本)。这一创新架构针对长上下文和大规模参数场景进行了优化,标志着国产大模型技术再获突破。
通义团队指出,Context Length Scaling和Total Parameter Scaling是未来大模型发展的核心方向。Qwen3-Next通过混合注意力机制、高稀疏度MoE结构等四项关键技术改进,显著提升了训练和推理效率。其核心模型Qwen3-Next-80B-A3B-Base采用800亿总参数(仅激活30亿)的超稀疏MoE架构,在512专家系统中实现10+1共享路由,结合Hybrid Attention与多Token预测技术。
性能表现方面,该Base模型达到与Qwen3-32B密集模型相当的效果,但训练成本不足十分之一,在32k上下文场景下的推理吞吐量提升超十倍。模型原生支持262K上下文,可外推至101万tokens,其中Instruct版评测接近Qwen3-235B水平,Thinking版部分任务超越Gemini-2.5-Flash-Thinking。
目前模型权重已在Hugging Face以Apache-2.0许可开源,支持通过Transformers、SGLang、vLLM等框架部署。OpenRouter等第三方平台也已同步上线,为开发者提供了便捷的接入渠道。这一突破性架构同时实现了大规模参数容量、低激活开销和长上下文处理能力,为行业提供了新的技术参考。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/733615.html