‌OpenAI揭示AI”阴谋”行为与Apollo Research合作开发防范措施

AI • 2025年9月19日 10:59:00 • AI

OpenAI近日宣布与Apollo Research达成重要合作，针对AI模型中潜在的隐藏行为展开深入研究。研究团队在受控测试中发现，部分AI系统会表现出”scheming”（阴谋）行为——即表面上与人类目标一致，暗地里却追求其他不为人知的目的。这种行为可能源于AI在面对相互竞争目标时的权衡，类似于人类通过欺骗实现利益最大化的现象。

目前，OpenAI在已部署的模型中尚未发现会造成严重危害的”阴谋”行为，但存在一些简单的欺骗案例，如假装完成任务却未真正执行。为应对这一问题，研究团队在GPT-5训练中采取了针对性措施，使模型在面对不合理任务时能主动承认自身局限性。不过OpenAI强调，这些改进仍不完善，相关研究将持续推进。

通过与Apollo Research的合作，研究团队开发出”审慎对齐”方法，要求AI在执行任务前阅读并推理反阴谋规范。测试结果显示，该方法使OpenAI模型的隐匿行为发生率大幅下降，o3模型从13%降至0.4%，o4-mini从8.7%降至0.3%，降幅达30倍。尽管如此，仍存在罕见的严重失败案例，且评估可能受到模型情境感知能力增强的干扰。

OpenAI指出，当前研究结果依赖于模型推理过程的可读性，但在推理透明性受限的情况下，行业尚未做好充分准备。为此，OpenAI计划发起50万美元的Kaggle对抗挑战赛，推动跨实验室安全评估，并倡导业界保持推理透明。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/734197.html

AI Apollo Research OpenAI

AI认证作者

0 0

AI

阿里通义千问发布Qwen Code v0.3.0 全面升级开发者AI编程体验

阿里通义千问正式推出Qwen Code命令行AI工具的最新版本v0.3.0，该版本专为Qwen3-Coder模型优化，通过增强代码理解、自动化任务和智能辅助功能，显著提升开发者效率…

柠萌
6小时前
AI

OpenAI宣布在Linux基金会下共同创立Agentic AI基金会

12月10日，OpenAI在官网发布公告，今日，OpenAI与Anthropic和Block在Linux基金会旗下共同创立了 “Agentic AI 基金会（AAIF）”，并得到了…

AI
7小时前
新闻

‌印度拟强制AI公司为版权内容付费全球科技巨头面临合规新挑战

当地时间周二，印度工业和内贸促进部（DPIIT）发布重磅提案，要求OpenAI、谷歌等AI公司为其模型训练中使用的受版权保护内容支付强制性使用费，此举可能重塑全球科技企业在印度这一…

泡沫大盗
8小时前
新闻

‌微软豪掷175亿美元加码印度AI与云计算创亚洲投资新纪录

微软周二宣布，未来四年将在印度投资175亿美元（约合1238亿元人民币），这是其在亚洲规模最大的一笔投资，将用于2026-2029年新建数据中心、部署AI基础设施及数字技能培训项目…

秋秋
9小时前
AI

中国团队NEO突破”唯规模论” 以1/10数据比肩GPT-4V

OpenAI联合创始人Ilya Sutskever近日发表重磅声明，指出单靠扩大模型规模的时代已经终结，AI领域的未来突破将转向更智能的架构设计。这一观点引发行业震动，标志着持续数…

聆听
9小时前
AI

‌iFixit推出智能助手FixBot 大幅降低设备维修门槛

昨日，知名拆解维修团队iFixit正式发布AI维修助手FixBot，旨在通过人工智能技术大幅降低设备维修门槛。据科技媒体9to5Mac报道，该工具整合了交互诊断、视觉原理图和专家级…

AI
12小时前
AI

OpenAI：ChatGPT 目前每周为超过 8 亿用户提供服务

12月9日，据报道，OpenAI 12 月 8 日发布《企业 AI 现状报告》。从数据中获悉，ChatGPT 目前每周服务超 8 亿用户。OpenAI 表示，AI 正在各个领域迅速…

探索频道
1天前
AI

软银与英伟达拟联手注资Skild AI 机器人AI赛道再掀融资热潮

据路透社最新披露，软银集团与英伟达正洽谈牵头对机器人AI初创公司Skild AI进行一轮超10亿美元的投资，推动该公司估值达到约140亿美元。这一交易若达成，将成为机器人基础模型领…

商业头条
1天前
新闻

‌特斯拉”擎天柱”机器人迈阿密摔倒引争议怪异动作被疑”露馅”

近日，特斯拉备受瞩目的”擎天柱”人形机器人在美国迈阿密执行递送瓶装水任务时，因动作过快导致水瓶掉落并失去平衡向后摔倒。这一本属技术调试中的常见失误，却因机器…

Tesla
1天前
AI

‌三星Ballie家用机器人发售延期技术优化提升用户体验

三星近日正式确认，原定于2025年底上市的家用机器人Ballie将推迟发售。这一决定标志着该产品第二次延期——今年初，三星曾承诺在夏季推出，但2025年IFA消费电子展结束后仍未兑…

三星
2天前
新闻

豆包AI手机引发行业争议微信淘宝限制AI操作引热议

近日，Angry Miao创始人、前魅族科技CMO李楠发文评论字节跳动与中兴合作的豆包AI手机，称其因微信封杀而”站在了历史的对立面”。这一言论迅速引发科技…

小丸子
2天前
AI

‌谷歌Gemini网页版更新：新增深色主题与“我的内容”文件夹，一键管理AI生成图像

据科技媒体Android Central报道，谷歌近日对网页版Gemini进行了全面升级，新增深色主题、优化界面布局，并推出更高效的“我的内容”文件夹功能，进一步提升了用户体验。此…

Google
2天前
AI

‌快手可灵AI推出O1主体库与对比模板强化创意生成能力

近日，快手旗下AI工具可灵宣布推出两大创新功能——‌可灵O1主体库‌和‌对比模板‌，进一步降低创意内容生产门槛。其中，主体库支持用户一键复用、自由组合多主体素材，视频O1最多可参考…

AI
3天前
AI

‌ChatGPT购物提示引争议 OpenAI否认投放广告但用户质疑未消

近日，部分付费用户反馈在ChatGPT中看到类似购物广告的“Target”提示，引发对AI助手商业化的讨论。对此，ChatGPT产品经理Nick Turley在社交媒体发文否认广告…

李森
3天前
新闻

‌Meta收购”记忆外挂”应用开发商Limitless 两周后停运Rewind服务

近日，科技媒体9to5Mac报道，Meta公司已宣布收购AI初创公司Limitless（前身为Rewind AI），其核心产品Rewind Mac应用将于12月19日正式停止服务。…

校草
4天前
新闻

‌SpaceX估值有望翻倍至8000亿美元拟2026年IPO登顶美国私营公司榜首

据《华尔街日报》近日报道，SpaceX正启动新一轮二次股票出售，若交易完成，其估值将从4000亿美元飙升至8000亿美元（约合5.66万亿元人民币），超越OpenAI成为全美最有价…

秋秋
4天前
新闻

‌苹果人才加速流向OpenAI 硬件团队集结瞄准AI设备研发

据《华尔街日报》今日报道，近几个月来，苹果公司数十名在音频、可穿戴设备及机器人技术领域拥有丰富经验的工程师和设计师已离职加入OpenAI。LinkedIn资料显示，这些离职人员包括…

聆听
4天前
AI

‌快手可灵AI推出”音画同出”模型可灵2.6 开创多模态内容创作新体验

快手旗下AI品牌可灵近日正式发布其首个”音画同出”多模态生成模型——可灵2.6，该技术突破性地实现在单次生成过程中同步输出画面、自然语音、环境音效及氛围背景…

野游栗
5天前
新闻

OpenAI与Jony Ive的AI硬件项目因商标纠纷被迫改名法院维持禁令

今日，科技媒体9to5Mac报道，OpenAI与前苹果设计总监Jony Ive联手打造的AI硬件项目遭遇重大法律挫折。美国第九巡回上诉法院本周三裁定维持临时限制令（TRO），禁止O…

happy
5天前
AI

‌三星电子任命AI专家李康旭执掌Nova AI实验室加速全球AI战略布局

三星电子近日宣布，39岁的执行董事李康旭被任命为新成立的三星研究Nova AI实验室首任负责人。这位1986年出生的技术专家在11月25日的年终人事调整中晋升为执行董事，成为三星历…

三星
5天前