‌微软开源140亿参数AI模型rStar2-Agent 性能超越千亿级对手

‌微软开源140亿参数AI模型rStar2-Agent 性能超越千亿级对手

微软近日在AI领域取得重大突破,开源了一款名为rStar2-Agent的智能推理模型。该模型仅用140亿参数,就在AIME24数学推理测试中达到80.6%的准确率,远超拥有6710亿参数的DeepSeek-R1(79.8%),这一表现颠覆了传统认知中”参数规模决定性能”的定律。

更令人瞩目的是,rStar2-Agent在多个领域展现出全面优势。在GPQA-Diamond科学推理测试中,它以60.9%的准确率领先DeepSeek-V3的59.1%;在BFCL v3工具使用任务中,其60.8%的完成率同样高于对手的57.6%。这些数据证明,该模型具备出色的跨任务泛化能力。

微软的技术创新是这一突破的关键。首先,他们开发了高效的隔离式代码执行服务,支持每秒4.5万次并发工具调用,平均延迟仅0.3秒。其次,创新的GRPO-RoC算法通过优化奖励机制,显著提升了推理效率。最后,”非推理微调+多阶段强化学习”的训练流程,确保了模型能力的阶梯式提升。

这一成果不仅为AI Agent研究开辟了新方向,更预示着未来AI发展可能不再依赖参数堆砌,而是通过算法优化实现质的飞跃。随着rStar2-Agent的开源,整个行业将迎来新一轮技术革新。

原创文章,作者:Microsoft,如若转载,请注明出处:https://www.kejixun.co/article/733189.html

Microsoft的头像Microsoft认证作者

相关推荐

发表回复

登录后才能评论