
谷歌当地时间2月12日宣布对Gemini 3 Deep Think进行重大升级,推出专为科学、研究与工程场景打造的“推理模式”。此次升级由谷歌开发人员与各领域科学家、研究人员共同合作完成,旨在应对真实科研环境中边界模糊、数据杂乱且未必存在唯一解的复杂问题。
新版Deep Think的可用范围显著扩大。即日起,该模式在Gemini应用中向Google AI Ultra订阅用户开放,同时谷歌首次通过Gemini API以“早期访问计划”形式向部分研究人员、工程师及企业提供,并已开放申请入口招募意向用户。这标志着Deep Think正从实验性功能迈向实际应用。
在推理能力方面,新版Deep Think在多类高难度基准测试中表现亮眼。在不使用外部工具的情况下,该模型在终极人类考试(Humanity’s Last Exam)上取得48.4%的成绩,在ARC-AGI-2测试中获得84.6%,并经ARC Prize Foundation验证。编程领域,其在Codeforces竞赛基准中拿下3455的Elo评分。数学方面,Deep Think更是在2025年国际数学奥林匹克(IMO 2025)上达到金牌水平。
除数学与编程外,谷歌强调新版模型在科学领域同样实力不俗。Deep Think在2025年国际物理奥林匹克与国际化学奥林匹克的笔试部分均取得金牌级结果,同时在理论物理相关的CMT-Benchmark上获得50.5%的得分。
谷歌表示,Deep Think的升级不仅为追求基准成绩,更致力于推动真实的工程与科研应用。目前,该模型已可帮助研究人员解读复杂数据,协助工程师通过代码对物理系统进行建模。未来,谷歌将持续把Deep Think开放到更多实践场景中,让这一“会思考”的推理工具真正触及最需要它的开发者与科学家。
原创文章,作者:聆听,如若转载,请注明出处:https://www.kejixun.co/article/745414.html