
今日,OpenAI正式发布了GPT-5,在最新发布的ARC-AGI-2基准测试中,发布了GPT-5 vs Grok4的性能对比。其中,xAI的Grok4(思考型)以16%的准确率领先于GPT-5(高级)的9.9%,展现出更强的复杂推理能力。然而这一优势伴随着高昂的成本代价,Grok4每项任务需要2-4美元,而GPT-5仅需0.73美元,成本效益差距显著。这种性能与成本的权衡成为当前AI模型发展的核心议题。
在难度较低的ARC-AGI-1测试中,Grok4继续保持领先优势,68%的准确率略高于GPT-5的65.7%。但值得注意的是,GPT-5每项任务成本仅为0.51美元,远低于Grok4的1美元,使得OpenAI的产品在性价比方面占据明显优势。分析人士指出,xAI若想提升市场竞争力,可能需要重新评估其定价策略。与此同时,GPT-5的轻量级版本展现出惊人的成本控制能力,GPT-5 Mini在AGI-1测试中仅需0.12美元就能达到54.3%的准确率,而最精简的GPT-5 Nano更是将单次任务成本压缩至0.03美元。
回顾历史数据,OpenAI曾在2024年12月发布的o3-preview模型在ARC-AGI-1测试中获得接近80%的惊人成绩,但过高的成本使其难以商业化推广。业内人士推测,GPT-5可能有意降低了部分性能以优化成本结构。相比之下,Grok4 Heavy版本在多智能体协作模式下展现出独特优势,在HLE测试中取得44%的优异成绩,配合工具使用更可提升至50.7%,这种架构创新为其赢得了专业用户群体的青睐。
随着ARC-AGI-3测试的推进,AI模型将面临更接近真实世界的交互式挑战。目前两大模型在视觉推理等领域的表现仍远逊于人类60%的平均水平,这表明人工智能的发展仍有长路要走。在这场尖端技术的竞赛中,Grok4以性能见长,GPT-5则更注重实用性和普及性,两者的差异化竞争将持续推动行业进步。
原创文章,作者:李森,如若转载,请注明出处:https://www.kejixun.co/article/730743.html