
人工智能公司Anthropic于5月29日正式推出旗舰新模型Claude Opus 4.8。官方表示,相比上一代Opus 4.7,本次更新幅度虽不算大,但在编程、智能体能力、推理和知识工作等用户可感知的方面实现了显著提升,且维持了原有定价不变。
早期测试方反馈称,Opus 4.8“更可靠,判断也更敏锐”。在复杂多步骤任务中,它能主动提问、识别自身错误,并在计划不合理时提出异议。尤其值得关注的是,模型放任自己所写代码缺陷却不加说明的概率降低至前代的四分之一,更愿意主动标出不确定性,减少缺乏依据的结论。在对齐表现上,Opus 4.8在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高,而欺骗等失配行为的出现率则低于Opus 4.7。
性能方面,Opus 4.8在SWE-Bench Pro基准测试中取得69.2%的分数,超越GPT-5.5与Gemini 3.1 Pro。不过,在终端编程基准上GPT-5.5仍保持领先。Anthropic还调整了模型的速度与成本:快速模式运行速度提升至2.5倍,而模型成本降至此前模型的三分之一。定价方面,常规模式每100万输入令牌5美元、每100万输出令牌25美元;快速模式则分别为10美元和50美元。此外,claude.ai新增了effort程度控制,用户可在更高质量与更快响应之间自由平衡,默认档位下token消耗与Opus 4.7相当但效果更优,选择更高档位则能换取更出色的结果。
原创文章,作者:happy,如若转载,请注明出处:https://www.kejixun.co/article/753745.html