
科技圈的戏剧性反转来得猝不及防。近日还在为OpenAI发布GPT-5.2的”碾压性表现”欢呼的AI社区,却被一则爆料推入争议漩涡——有用户指出,OpenAI在基准测试中可能通过大幅增加模型”推理力度”参数(即token消耗量),为GPT-5.2创造了不公平的算力优势。
问题的核心在于对比数据:在ARC AGI 2测试中,GPT-5.2 xhigh版以13.5万token/任务的消耗(成本约1.9美元)获得52.9%的得分,而Gemini 3.0 Pro仅用6.7万token便达到相近成绩。这种差异被比作”棋手对弈时一方获一小时思考,另一方仅十分钟”的荒谬竞赛。更值得注意的是,当算力投入标准化后,两者在HLE、MMMU-Pro等多项测试中表现趋同,仅在OpenAI自建的GDPVal测试集中存在显著差异——这一”既当裁判又当运动员”的行为,进一步削弱了结果的公信力。
这场风波暴露出AI评测领域的深层矛盾:性能提升究竟源于技术突破,还是资源堆砌?GPT-5.2在Frontier Math Tier 3中仅领先Gemini 3 Pro 2.7%的成绩,却消耗了双倍算力,其”高效”标签已然存疑。随着质疑发酵,OpenAI尚未回应,但这场争议已为行业敲响警钟:若放任算力竞赛扭曲评测标准,AI发展的天平或将滑向资本而非创新。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/740962.html