‌OpenAI发布最强编程模型GPT-5.1-Codex-Max:性能反超谷歌,支持“通宵”工作

‌OpenAI发布最强编程模型GPT-5.1-Codex-Max:性能反超谷歌,支持“通宵”工作

近日,OpenAI正式推出新一代智能体编程模型‌GPT-5.1-Codex-Max‌,取代原有GPT-5.1-Codex成为Codex集成界面的默认模型。此次升级显著提升了长远推理能力、交互效率及实时性,并在多项基准测试中超越谷歌Gemini 3 Pro,引发AI开发领域广泛关注。

性能表现上,Codex-Max在关键编程测试中全面领先:‌SWE-Bench Verified‌(解决实际软件问题)准确率达77.9%,略高于Gemini的76.2%;‌Terminal-Bench 2.0‌测试中以58.1%对54.2%胜出;而在竞争激烈的‌LiveCodeBench Pro‌编码Elo测试中,两者得分持平(2439分)。这一成绩标志着OpenAI在AI编程领域的持续领先优势。

技术层面,Codex-Max引入了名为“‌压缩‌”(Compaction)的创新机制,可智能保留关键上下文并丢弃冗余细节,支持数百万token的连续工作而无性能衰减。得益于该技术,模型在内部测试中成功完成超过24小时的复杂任务(如多步骤代码重构),同时提升30%的token效率,降低延迟与成本。目前,该模型已集成至OpenAI的‌Codex CLI‌、内部代码审查工具等开发环境,支持强化学习训练等实时交互场景。

尽管能力强大,OpenAI仍强调Codex-Max是编码“助手”而非替代品。模型默认运行于沙盒环境,禁用网络访问,并生成详细日志供开发者验证。值得注意的是,普通用户需订阅‌ChatGPT Plus/Pro或企业版‌才能使用,公共API暂未开放。OpenAI透露,内部95%的工程师每周使用Codex,其采用后拉取请求量平均增加70%。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/739072.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论