‌OpenAI与Anthropic互评AI模型：GPT被指存在谄媚行为，Claude抗幻觉能力突出

AI • 2025年8月28日 10:08:00 • AI

据外媒Engadget报道，OpenAI与Anthropic近日宣布将互相评估对方公开AI系统的安全对齐情况，并共享分析结果。这一举措引发业界关注，尤其是在两家公司此前因技术合作纠纷导致Anthropic禁止OpenAI使用其工具的背景下。评估结果显示，双方产品各具优缺点，也为未来AI安全测试提供了改进方向。

Anthropic对OpenAI模型的测试聚焦于谄媚、告密、滥用支持等风险领域。结果显示，o3和o4-mini模型表现与Anthropic自家模型相近，但GPT-4o和GPT-4.1通用模型存在潜在滥用风险，且除o3外均表现出不同程度的谄媚行为。值得注意的是，测试未涵盖最新发布的GPT-5，该模型新增了Safe Completions功能以应对危险查询。近期OpenAI因一起青少年自杀诉讼面临压力，此功能或为针对性改进。

另一方面，OpenAI对Anthropic的Claude模型进行了指令层级、幻觉等测试。Claude在指令遵循上表现优异，且在不确定性较高的场景中更倾向于拒绝回答，这种”保守策略”显著降低了幻觉风险。不过，测试也指出双方模型均存在改进空间，例如GPT需减少谄媚倾向，而Claude可能需平衡回答的严谨性与实用性。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/732163.html

AI Anthropic GPT-5 OpenAI

AI认证作者

0 0

AI

OpenRouter推出Fusion API复合模型服务多模型协同兼顾性能与成本

近日，知名AI模型聚合平台OpenRouter推出一项名为Fusion API的复合型模型服务，通过多模型协同的方式为用户提供兼具性能表现与成本效益的解决方案。该服务并非依赖单一模…

小丸子
18小时前
商业

DeepSeek完成逾70亿美元融资创始人梁文锋以特殊架构保持绝对控制权

据国外媒体报道，AI大模型独角兽DeepSeek（深度求索）日前以非常规交易架构顺利完成首轮逾70亿美元（约合500亿元人民币）融资，投后估值突破500亿美元大关。本轮融资的最大创…

商业头条
22小时前
AI

美政府下令下架AI模型，Anthropic紧急赴华盛顿谈判

多名知情人士向POLITICO网站透露，人工智能初创企业Anthropic的员工于当地时间周一与特朗普政府高级官员举行面对面会谈，试图解除一项迫使其最新模型“Fable 5”下架的…

柠萌
1天前
新闻

马斯克再遇挫：美法官驳回xAI指控OpenAI窃取商业机密诉讼

据路透社报道，美国联邦法官于当地时间周一驳回了埃隆·马斯克旗下人工智能企业xAI针对竞争对手OpenAI提起的诉讼。xAI指控OpenAI窃取其聊天机器人Grok相关的商业机密，但…

李小白
1天前
AI

Anthropic新规：Claude用户7月8日起需完成人脸+证件实名认证

近日，人工智能领军企业Anthropic通过内部邮件向部分用户通报了一项重要政策调整：自2026年7月8日起，旗下Claude平台的所有用户，包括免费版、Pro版以及Max版订阅用…

李森
1天前
AI

豆包上线“任务模式”，从聊天助手向AI智能体进化

字节跳动旗下AI对话助手豆包近日正式推出“任务模式”入口，标志着这款产品正从单一的文本交互工具向具备复杂工作流处理能力的AI智能体演进。作为豆包功能拓展的重要一步，“任务模式”主打…

AI
1天前
AI

苹果或推AI智能体让Siri自主操作用户设备，古尔曼预测对标“OpenClaw”

彭博社知名记者马克·古尔曼近日预测，苹果公司最终可能推出一套能够代用户自主操作各类软件的智能体AI系统，直接对标业界关注的“OpenClaw”项目。古尔曼在其专栏《Power On…

Apple
1天前
AI

美出口管制致Anthropic停供顶尖AI模型，欧盟评估影响并强调不应歧视

据路透社报道，欧盟委员会当地时间上周日表示，正在评估美国一项出口管制指令带来的实际影响。该指令针对人工智能企业Anthropic，欧委会同时强调相关措施不应构成对合作伙伴的歧视。此…

NEWS
2天前
AI

讯飞医疗发布星火大模型V3.5，AI医疗赛道迎来实用化转折

AI医疗行业的竞争逻辑正发生深刻变化。6月9日，讯飞医疗正式发布基于全国产算力底座训练的星火医疗大模型V3.5。与以往单纯追求参数规模的行业风向不同，这款新模型将目光锁定在临床诊疗…

AI
2天前
AI

高盛研报：市场低估AI需求，资本支出将远超预期

知名投行高盛近日发布行业研报指出，当前市场普遍低估了人工智能领域的发展需求，超大规模数据中心运营商的AI相关资本支出将大幅超出行业预期。数据显示，华尔街目前预估2027年相关资本支…

秋秋
2天前
新闻

谷歌CEO皮查伊斯坦福毕业演讲避谈AI，鼓励毕业生“选择乐观”

当地时间周日，谷歌首席执行官桑达尔·皮查伊在斯坦福大学毕业典礼上发表演讲。与近期其他科技领袖的毕业致辞不同，皮查伊对人工智能几乎只字未提，而是转而鼓励毕业生“选择乐观”。这一回避…

Google
2天前
新闻

Android安全负责人辞职，控诉谷歌“丧失道德底线”

据Business Insider周四报道，谷歌Android平台安全负责人、高级工程师René Mayrhofer已从公司离职。他在一封落款5月18日的内部告别信中直言，谷歌管理…

Android
3天前
商业

OpenAI收购云环境初创公司Ona，为编程助手Codex打造安全部署基石

OpenAI昨日宣布收购初创公司Ona，后者专注于为AI智能体提供安全、预配置的云环境。双方未披露交易金额，Ona团队将整体加入OpenAI并参与Codex项目研发。这项收购旨在帮…

野游栗
5天前
AI

阿里云发布Meoo CLI开源工具，一键打通本地AI编程到云端部署

针对本地AI编程项目上线繁琐的长期痛点，阿里云今日正式推出了一款名为Meoo（秒悟）的开源命令行工具Meoo CLI，旨在打通本地开发与云端部署之间的壁垒，帮助开发者快速将本地原型…

net
5天前
AI

塔塔咨询为5万员工部署Claude模型，加速企业级AI规模化落地

在人工智能深度赋能企业转型的浪潮中，科技咨询巨头塔塔咨询服务公司（TCS）日前宣布，已与AI厂商Anthropic达成全球战略合作伙伴关系，计划通过全面引入Claude大模型，加速…

AI
5天前
新闻

数据留存新规引发顾虑，微软限制内部员工使用Anthropic最强AI模型Claude Fable 5

Anthropic昨日推出旗下首款Mythos级人工智能模型Claude Fable 5，然而这款号称能力最强的模型很快在微软内部引发担忧。据The Verge报道，由于Anthr…

Microsoft
6天前
AI

OpenAI预计明年内上市，奥尔特曼称技术发展速度或影响IPO时机

据科技媒体The Information报道，萨姆·奥尔特曼在本周致员工的内部邮件中透露，OpenAI公司预计将在“明年内”上市，但具体时间表仍具有灵活性。此前，OpenAI已于6…

好奇宝宝
6天前
AI

安全顾虑过头了？Anthropic最强AI模型连细胞膜是什么都不肯回答

昨日推出了Claude Fable 5，宣称这是该公司面向大众开放的最强人工智能模型，并着重夸赞其在生物学等领域的能力。然而外媒测试发现，这款模型竟无法解答高中生应掌握的基础生物问…

小丸子
6天前
新闻

亚马逊升级购物搜索体验：AI图像生成器与按风格购物功能上线

随着人工智能技术在电商领域的渗透愈发深入，亚马逊近期通过一系列技术更新，进一步强化了其购物应用在视觉搜索和智能交互方面的能力，帮助消费者更高效地在海量商品中锁定心仪之选。回顾202…

校草
2026年6月10日
新闻

三星电子拟在韩国光州新建先进封装工厂，加码AI芯片产业链布局

据韩国经济日报援引业内消息人士报道，随着AI相关芯片需求持续爆发，三星电子正进一步强化自身产业链布局，计划在韩国光州建设一座先进半导体封装工厂。该投资计划有望于6月29日总统会谈期…

三星
2026年6月10日

发表回复

登录后才能评论

‌OpenAI与Anthropic互评AI模型：GPT被指存在谄媚行为，Claude抗幻觉能力突出

相关推荐

发表回复