OpenAI推出SimpleQA基准，专治AI模型“胡言乱语”

AI • 2024年10月31日 15:30:00 • 新闻

近日，OpenAI宣布推出一个新的基准测试工具SimpleQA，旨在衡量语言模型在回答简短事实寻求问题时的准确性。这一举措针对的是AI领域中的一个长期难题：如何训练模型生成事实正确的回答。

当前的语言模型在生成回答时，有时会产生错误或未经证实的答案，这种现象被称为“幻觉”。为了提高模型的可靠性，OpenAI设计了SimpleQA这一基准测试。SimpleQA的数据集具备高正确性、多样性和前沿挑战性等特点。问题的参考答案由两名独立的AI训练师验证，以确保评分的公正性。同时，SimpleQA涵盖广泛主题，从科学技术到电视节目与电子游戏等应有尽有，以测试模型在不同领域的知识掌握情况。

与早期的基准测试相比，SimpleQA更具挑战性。例如，在针对前沿模型GPT-4o的测试中，其得分不足40%。此外，SimpleQA的问题与答案简洁明了，使操作快速高效，并可通过OpenAI API等进行快速评分。包含4326道问题的SimpleQA在评估中具有较低的方差，能够提供稳定的测试结果。

OpenAI表示，SimpleQA是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。然而，SimpleQA的主要限制在于其范围有限，只在短查询的受限设置中测量事实准确性。因此，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，仍是一个悬而未决的研究课题。

OpenAI希望通过开源SimpleQA，进一步推动AI研究的发展，使模型更加可信并富有可靠性。这一举措有望为AI领域的发展注入新的动力，促进更加准确、可靠的AI模型的诞生。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/690044.html

OpenAI SimpleQA

AI认证作者

0 0

AI

OpenAI澄清ChatGPT广告暂不全球推广

近日，部分Reddit用户发现ChatGPT的隐私政策中提及广告内容，引发外界猜测OpenAI是否计划将广告功能扩展至全球范围。对此，OpenAI向科技媒体BleepingComp…

AI
1小时前
新闻

英伟达投260亿美元转型，欲打造开源AI模型抗衡OpenAI

芯片巨头英伟达正酝酿一场重大战略转型。据外媒连线今日报道，英伟达宣布将在未来五年内投资260亿美元，用于开发开源AI模型，此举被解读为该公司正从纯粹的芯片制造商向顶尖AI前沿实验室…

NEWS
4天前
AI

OpenAI更新Atlas浏览器，支持多账号登录区分工作生活

今日，科技媒体9to5Mac发布博文称，OpenAI对其AI浏览器Atlas进行了重要更新，新增支持多ChatGPT账户登录功能。这一改进解决了长期困扰用户的使用痛点，让人们可以在…

AI
4天前
AI

OpenAI与Shazam合作为ChatGPT推出音乐识别新功能

近日，OpenAI宣布与音乐识别平台Shazam达成合作，为ChatGPT客户端新增一项实用的音乐识别功能。现在，用户可以在对话中直接让ChatGPT帮助识别周围正在播放的歌曲，无…

校草
6天前
AI

OpenAI为开源开发者免费送半年ChatGPT Pro，无门槛限制

人工智能公司OpenAI近日宣布推出Codex开源计划，将为全球开源项目的维护者和核心开发者免费提供为期半年的ChatGPT Pro订阅。这一举措旨在回馈那些在软件生态系统中默默付…

AI
2026年3月8日
AI

微软必应视频创作者接入Sora 2，免费生成更强AI视频

微软昨日宣布，其旗下的必应视频创作者服务Bing Video Creator已完成重大升级，全面接入了OpenAI最新推出的Sora 2视频生成模型。这意味着所有必应用户现在都可以…

Microsoft
2026年3月6日
AI

OpenAI正式发布GPT-5.4系列模型，原生支持操控电脑成最大亮点

今日，OpenAI正式推出GPT-5.4系列模型，包括面向对话场景的GPT-5.4 Thinking版本和专攻复杂任务的GPT-5.4 Pro版本。这是该公司首次将前沿推理、编码及…

AI
2026年3月6日
AI

OpenAI推出Windows版Codex，编程进入“智能代理”时代

在Mac版本发布首周即创下百万次下载的惊人纪录后，OpenAI于今日正式推出了适用于Windows系统的Codex应用程序。这款人工智能驱动的辅助编程工具，标志着开发者工作流正从“…

泡沫大盗
2026年3月5日
商业

黄仁勋：对OpenAI的300亿美元投资可能是最后一次

据外媒报道，在摩根士丹利科技、媒体与电信大会上，英伟达首席执行官黄仁勋释放出重要信号。他明确表示，英伟达近期对OpenAI高达300亿美元的投资，很可能是后者计划于年底进行首次公开…

商业头条
2026年3月5日
AI

OpenAI被曝将推GPT-5.4，上下文窗口超百万Tokens

据The Information爆料，OpenAI正准备推出一款名为GPT-5.4的新一代大模型，其上下文窗口将超过100万tokens，较此前版本实现大幅提升。知情人士透露，新…

AI
2026年3月5日
AI

OpenAI 被曝秘密开发代码托管平台或将正面挑战微软 GitHub

3月4日，据报道，科技媒体 The Information 发布博文称 OpenAI 为应对近期 GitHub 频繁宕机问题，正秘密开发一款全新的代码托管平台，意图直接对标微软 G…

潮玩君
2026年3月4日
新闻

AMD苏姿丰称AI基础设施没有“万能芯片” 并回应内存涨价

3月3日晚，在摩根士丹利技术、媒体和电信会议上，AMD CEO苏姿丰与摩根士丹利分析师进行了一场对话。近段时间，市场上围绕AI芯片厂商与大型科技厂商的合作及股权上的绑定、AI基础设…

小丸子
2026年3月4日
AI

美政府全面停用Anthropic，多部门转向OpenAI

据路透社报道，美国联邦政府正全面终止与人工智能公司Anthropic的合作，多个核心部门已明确将改用其竞争对手OpenAI的技术。此前，美国总统特朗普已下令政府机构弃用Anthro…

AI
2026年3月3日
新闻

微软最新回应：与OpenAI合作关系稳固不变

针对近期市场上关于OpenAI获得巨额融资并与亚马逊达成深度合作的传闻，微软正式作出回应，重申双方的合作伙伴关系依然牢固且处于核心地位。微软强调，任何行业公告都不会改变双方此前达成…

李小白
2026年3月1日
AI

英伟达CEO黄仁勋：接近与OpenAI达成合作协议

在最新发布的第四财季业绩超预期之后，英伟达首席执行官黄仁勋在财报电话会议上透露，公司与人工智能巨头OpenAI的合作协议已接近达成，这一消息引发业界广泛关注。黄仁勋表示，英伟达的…

happy
2026年2月26日
AI

运营成本压力下 OpenAI启动广告模式，COO称将“打磨好”用户体验

面对日益增长的运营成本，人工智能巨头OpenAI终于开启了商业化的新篇章。在近日于印度举行的AI峰会上，OpenAI首席运营官布拉德·莱特卡普正式回应了外界关注的广告投放问题，表示…

好奇宝宝
2026年2月26日
AI

美法官驳回xAI对OpenAI诉讼，指其未能证明商业机密被窃取

埃隆·马斯克旗下人工智能初创公司xAI起诉竞争对手OpenAI窃取商业机密的诉讼日前遭遇挫折。美国加州一名联邦法官当地时间周二驳回了该案，认为xAI未能提供足够证据证明OpenAI…

李小白
2026年2月25日
新闻

OpenAI首席运营官：企业尚未真正大规模采用AI

尽管人工智能热潮席卷全球，但OpenAI首席运营官布拉德·莱特卡普近日坦言，企业级人工智能尚未真正渗透到业务流程之中。莱特卡普在新德里举行的印度人工智能影响力峰会期间表示，目前虽…

校草
2026年2月25日
AI

韩国三大电视台起诉OpenAI，指控未经授权使用新闻内容训练AI

韩国广播公司联合向OpenAI发起版权诉讼，指控其在训练ChatGPT过程中未经许可使用新闻内容。据韩联社报道，KBS、MBC、SBS三大地面电视台今日向首尔中央地方法院正式起诉C…

若安丶
2026年2月24日
AI

OpenAI 下调算力支出目标至 6000 亿美元，推进新一轮巨额融资

近日，据报道，OpenAI 目前向投资者表示，公司已将 2030 年算力目标调降至 6000 亿美元。公司 CEO 萨姆 · 奥尔特曼曾在几个月前高调承诺投资 1.4 万亿美元基础…

好奇宝宝
2026年2月22日

发表回复

登录后才能评论

OpenAI推出SimpleQA基准，专治AI模型“胡言乱语”

相关推荐

发表回复