‌微软开源140亿参数AI模型rStar2-Agent 性能超越千亿级对手

Microsoft • 2025年9月8日 11:35:00 • AI

微软近日在AI领域取得重大突破，开源了一款名为rStar2-Agent的智能推理模型。该模型仅用140亿参数，就在AIME24数学推理测试中达到80.6%的准确率，远超拥有6710亿参数的DeepSeek-R1（79.8%），这一表现颠覆了传统认知中”参数规模决定性能”的定律。

更令人瞩目的是，rStar2-Agent在多个领域展现出全面优势。在GPQA-Diamond科学推理测试中，它以60.9%的准确率领先DeepSeek-V3的59.1%；在BFCL v3工具使用任务中，其60.8%的完成率同样高于对手的57.6%。这些数据证明，该模型具备出色的跨任务泛化能力。

微软的技术创新是这一突破的关键。首先，他们开发了高效的隔离式代码执行服务，支持每秒4.5万次并发工具调用，平均延迟仅0.3秒。其次，创新的GRPO-RoC算法通过优化奖励机制，显著提升了推理效率。最后，”非推理微调+多阶段强化学习”的训练流程，确保了模型能力的阶梯式提升。

这一成果不仅为AI Agent研究开辟了新方向，更预示着未来AI发展可能不再依赖参数堆砌，而是通过算法优化实现质的飞跃。随着rStar2-Agent的开源，整个行业将迎来新一轮技术革新。

原创文章，作者：Microsoft，如若转载，请注明出处：https://www.kejixun.co/article/733189.html

AI rStar2-Agent 微软

Microsoft认证作者

0 0

AI

谷歌将计算机使用工具直接集成至Gemini，AI从对话者进化为数字同事

谷歌昨日对其人工智能生态系统进行重大升级，正式将原生的“计算机使用”工具直接集成至Gemini 3.5 Flash模型中，全面取代此前的Gemini 2.5测试框架。这一举措标志着…

Google
14小时前
新闻

微软宣布 Xbox 主机 8 月 1 日起全球涨价：512GB 版上调 100 美元， 2TB 型号停产

6月26日，微软刚刚发布公告，宣布自 2026 年 8 月 1 日起，将在全球范围内上调 Xbox Series X|S 系列主机的售价，同时将停产 2TB 版本。其中，512GB…

好奇宝宝
18小时前
新闻

美政府施压Meta提交AI模型接受安全审查

据《纽约时报》援引知情人士消息，美国政府正加紧向Meta公司施压，要求其主动提交人工智能模型供政府审查，以便评估这些前沿技术的功能表现与潜在安全漏洞。这一举措是美国政府强化AI监管…

好奇宝宝
2天前
AI

京东开源实时视频交互模型，让AI从“一问一答”走向“边看边说”

京东近日正式开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的交互式视觉模型与可部署系统，并获得vLLM-Omni的day-0原生支持。…

小科同学
3天前
AI

Meta暂停监控员工键盘鼠标的AI项目，因数据泄露致内部敏感信息外泄

据Business Insider报道，Meta公司已紧急叫停一项名为“模型能力计划（MCI）”的AI训练项目，该项目原本用于记录公司内部员工的键盘敲击和鼠标操作轨迹，以收集训练数…

李小白
3天前
AI

亚马逊在ChatGPT打广告引流，却严防AI爬虫抓取自家数据

美国电商巨头亚马逊近日被曝已开始在ChatGPT平台投放广告，成为入驻OpenAI新兴广告业务中最具分量的零售企业。用户在使用ChatGPT搜索商品时，对话列表下方会直接出现亚马逊…

李森
3天前
AI

微软将默认向符合条件 Win11 设备自动安装 Microsoft 365 Copilot

6月22日，据 Windows Latest 报道，尽管公众强烈反对，且微软此前在强制预装 Microsoft 365 Copilot 一事上看似流露过些许歉意，但如今这家企业又故…

Microsoft
4天前
AI

Getty Images牵手OpenAI：图库内容将融入ChatGPT搜索体验

全球视觉内容巨头Getty Images日前宣布与OpenAI达成一项展示合作协议，标志着AI对话工具与正版视觉素材的融合再进一步。根据协议，Getty Images获得授权的海量…

AI
4天前
新闻

微软将移除 Edge 浏览器文件互传功能 Drop，重心转向 Copilot

6月22日，微软证实，在 Edge 149 版本取消侧边栏和集锦功能支持后，将移除浏览器内广受好评的文件互传功能 Drop。微软正在砍掉 Edge 绝大多数独家特色功能，把重心全面…

潮玩君
4天前
AI

纽约大学教授警告：AI泡沫破裂后果或超互联网泡沫

据外媒昨日报道，纽约大学金融学教授阿斯沃斯·达摩达兰发出严厉警告，称若当前AI行业泡沫破裂，其冲击可能比2000年前后的互联网泡沫更为严重。达摩达兰指出，AI热潮与当年互联网泡沫存…

泡沫大盗
5天前
AI

微信原生AI助手“小微”扩大灰度测试，一句话即可生成小程序

近日，微信原生AI助手“小微”开始扩大灰度测试范围，多个平台上陆续有用户反馈获得了体验资格。腾讯客服确认，“小微”目前仍处于测试阶段，支持通过文字或语音对话操作微信原生功能，例如调…

AI
5天前
新闻

欧盟拟将微软Azure和亚马逊云科技纳入数字市场法案监管

据彭博社18日报道，欧盟委员会可能最早于下周公布初步调查结果，预计将认定微软Azure和亚马逊云科技符合《数字市场法案》的适用条件，这意味着两家科技巨头的云服务业务即将面临更严格的…

秋秋
6天前
新闻

亚马逊工程师因公开批评AI数据中心扩张遭内部调查

美国CNBC当地时间18日报道，多名亚马逊工程师因在公开场合批评公司AI数据中心迅速扩张并呼吁政府加强监管，随后遭到亚马逊内部调查，甚至面临解雇风险。本月早些时候，5名亚马逊员工在…

若安丶
6天前
AI

黄仁勋呼吁社会全面拥抱AI，类比汽车适应时代

当地时间6月17日，英伟达CEO黄仁勋在接受美联社采访时再度为人工智能热情发声，他呼吁社会必须主动改变，更积极、更广泛地拥抱AI，以改善人们的生活并加速经济增长与科学突破。面对AI…

若安丶
2026年6月19日
AI

OpenRouter推出Fusion API复合模型服务多模型协同兼顾性能与成本

近日，知名AI模型聚合平台OpenRouter推出一项名为Fusion API的复合型模型服务，通过多模型协同的方式为用户提供兼具性能表现与成本效益的解决方案。该服务并非依赖单一模…

小丸子
2026年6月17日
商业

DeepSeek完成逾70亿美元融资创始人梁文锋以特殊架构保持绝对控制权

据国外媒体报道，AI大模型独角兽DeepSeek（深度求索）日前以非常规交易架构顺利完成首轮逾70亿美元（约合500亿元人民币）融资，投后估值突破500亿美元大关。本轮融资的最大创…

商业头条
2026年6月17日
AI

豆包上线“任务模式”，从聊天助手向AI智能体进化

字节跳动旗下AI对话助手豆包近日正式推出“任务模式”入口，标志着这款产品正从单一的文本交互工具向具备复杂工作流处理能力的AI智能体演进。作为豆包功能拓展的重要一步，“任务模式”主打…

AI
2026年6月16日
AI

苹果或推AI智能体让Siri自主操作用户设备，古尔曼预测对标“OpenClaw”

彭博社知名记者马克·古尔曼近日预测，苹果公司最终可能推出一套能够代用户自主操作各类软件的智能体AI系统，直接对标业界关注的“OpenClaw”项目。古尔曼在其专栏《Power On…

Apple
2026年6月16日
AI

讯飞医疗发布星火大模型V3.5，AI医疗赛道迎来实用化转折

AI医疗行业的竞争逻辑正发生深刻变化。6月9日，讯飞医疗正式发布基于全国产算力底座训练的星火医疗大模型V3.5。与以往单纯追求参数规模的行业风向不同，这款新模型将目光锁定在临床诊疗…

AI
2026年6月15日
AI

高盛研报：市场低估AI需求，资本支出将远超预期

知名投行高盛近日发布行业研报指出，当前市场普遍低估了人工智能领域的发展需求，超大规模数据中心运营商的AI相关资本支出将大幅超出行业预期。数据显示，华尔街目前预估2027年相关资本支…

秋秋
2026年6月15日

发表回复

登录后才能评论

‌微软开源140亿参数AI模型rStar2-Agent 性能超越千亿级对手

相关推荐

发表回复