
今日,OpenAI正式推出GPT-5.4系列模型,包括面向对话场景的GPT-5.4 Thinking版本和专攻复杂任务的GPT-5.4 Pro版本。这是该公司首次将前沿推理、编码及智能体能力整合至单一模型中,旨在显著提升专业工作的效率与准确性。新模型最引人瞩目的升级在于其原生支持通过截图和键盘鼠标指令直接操作计算机,能够跨应用完成复杂工作流程,这一能力在OSWorld-Verified基准测试中取得了75.0%的成功率,甚至超越了72.4%的人类表现。
在专业工作领域,GPT-5.4实现了大幅突破。在涉及44个职业领域的GDPval基准测试中,其在83.0%的项目上达到或超过了行业专业水平,相比前代GPT-5.2的70.9%提升显著。无论是投行级别的电子表格建模,还是演示文稿的美学设计与内容生成,新模型的表现都更受青睐。同时,GPT-5.4也成为OpenAI迄今为止最“ factual”的模型,单个陈述的错误率相比前代降低了33%。
编码能力同样是此次升级的重点。GPT-5.4融合了此前Codex模型的优势,在专业编码基准测试中表现持平或更优,且延迟更低。新增的“工具搜索”功能使其能高效调用各种API和工具,以更少的交互轮次完成多步骤任务,大幅降低了总token消耗。其视觉感知和网络搜索能力也得到全面增强,在文档解析和查找难以定位信息等任务中创下新高。
即日起,GPT-5.4 Thinking已面向ChatGPT Plus、Team和Pro用户开放,并将逐步在API和Codex平台推出。GPT-5.4 Pro则面向对性能有极致需求的Pro和Enterprise用户。OpenAI表示,未来Instant模型与Thinking模型将以不同速度持续演进。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/746401.html