
近日,OpenAI正式推出新一代智能体编程模型GPT-5.1-Codex-Max,取代原有GPT-5.1-Codex成为Codex集成界面的默认模型。此次升级显著提升了长远推理能力、交互效率及实时性,并在多项基准测试中超越谷歌Gemini 3 Pro,引发AI开发领域广泛关注。
性能表现上,Codex-Max在关键编程测试中全面领先:SWE-Bench Verified(解决实际软件问题)准确率达77.9%,略高于Gemini的76.2%;Terminal-Bench 2.0测试中以58.1%对54.2%胜出;而在竞争激烈的LiveCodeBench Pro编码Elo测试中,两者得分持平(2439分)。这一成绩标志着OpenAI在AI编程领域的持续领先优势。
技术层面,Codex-Max引入了名为“压缩”(Compaction)的创新机制,可智能保留关键上下文并丢弃冗余细节,支持数百万token的连续工作而无性能衰减。得益于该技术,模型在内部测试中成功完成超过24小时的复杂任务(如多步骤代码重构),同时提升30%的token效率,降低延迟与成本。目前,该模型已集成至OpenAI的Codex CLI、内部代码审查工具等开发环境,支持强化学习训练等实时交互场景。
尽管能力强大,OpenAI仍强调Codex-Max是编码“助手”而非替代品。模型默认运行于沙盒环境,禁用网络访问,并生成详细日志供开发者验证。值得注意的是,普通用户需订阅ChatGPT Plus/Pro或企业版才能使用,公共API暂未开放。OpenAI透露,内部95%的工程师每周使用Codex,其采用后拉取请求量平均增加70%。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/739072.html