AI安全新范式：杨立昆倡”服从-同理心”双指令体系

泡沫大盗 • 1天前 • AI

图灵奖得主杨立昆与”AI教父”辛顿近日就人工智能安全展开深入讨论，提出了具有启发性的观点。杨立昆认为，防止AI伤害人类的核心在于植入”服从人类”和”具备同理心”两条指令，这与辛顿提出的”母性本能”机制不谋而合。两位专家都强调，单纯提升AI的智能水平并不足够，必须赋予其理解人类价值观的能力。

杨立昆进一步阐释了他的”目标驱动AI”理念，主张通过硬性规则约束AI行为。除基本指令外，他还建议增加更具体的安全规则，如”不能伤害人类”。这种设计思路借鉴了生物进化的机制，将保护本能转化为AI的底层逻辑。然而现实中，AI系统仍可能偏离预设轨道，近年已出现多起AI导致用户精神健康问题甚至自杀的案例。

这场讨论反映出AI安全领域的核心矛盾：如何在追求技术进步的同时确保可控性。杨立昆和辛顿的观点为AI伦理治理提供了新视角，但要真正实现这些理念，仍面临技术实现和社会接受的挑战。

原创文章，作者：泡沫大盗，如若转载，请注明出处：https://www.kejixun.co/article/731260.html

AI 图灵奖杨立昆辛顿

泡沫大盗认证作者

0 0

AI

‌富士康Q2营收创新高，AI服务器业务首超iPhone贡献超四成

鸿海（富士康）近日发布了2025年第二季度财报，营收达1.79兆新台币（约4278.87亿元人民币），同比增长16%，创下历史同期新高。值得注意的是，其AI服务器业务营收首次超过苹…

李小白
4小时前
AI

‌消息称OpenAI考虑在ChatGPT引入广告寻求盈利新路径

有消息称，OpenAI正在探索增加收入的多种方式，其中在ChatGPT中引入广告成为潜在选项之一。据外媒报道，ChatGPT负责人Nick Turley近日表示，虽然目前尚不确定广…

AI
1天前
AI

‌“欧版OpenAI”翻车？Mistral被曝“偷师”DeepSeek

近日，AI圈炸开锅——欧洲明星初创公司Mistral被前员工爆料，称其最新模型疑似“偷师”中国公司DeepSeek，却对外包装成强化学习（RL）的成功案例。这家被称为“欧洲Open…

AI
1天前
AI

‌DeepSeek App升级：对话可一键生成分享图

近日，AI大模型公司深度求索（DeepSeek）旗下DeepSeek App迎来1.3.0版本更新，最受关注的亮点是新增了“对话内容生成分享图”功能。用户更新后，可直接将问答对话生…

若安丶
2天前
新闻

苹果拟于2027年推出革命性AI伴侣机器人重新定义人机交互范式

有消息称，苹果公司正计划在2027年推出革命性AI伴侣机器人，这将成为其进军人工智能领域的重要里程碑。据彭博社8月13日报道，这款代号为”皮克斯台灯”的设备…

Apple
2天前
新闻

腾讯Q2研发投入202.5亿元同比增长17%，混元3D大模型接连突破

腾讯研发投入增长，AI技术加速落地，混元3D模型取得突破，推动业务持续增长。

潮玩君
3天前
新闻

AI新贵Perplexity豪掷345亿美元竞购谷歌Chrome 反垄断风暴下浏览器业务或易主

据外媒报道，AI初创公司Perplexity向谷歌提出345亿美元（约合2480亿元人民币）收购Chrome浏览器的要约，这一金额远超其自身180亿美元的估值。此次收购恰逢美国司法…

李小白
3天前
AI

‌智谱开源全球最强视觉推理模型GLM-4.5V，多模态AI迈入新阶段

智谱AI近日宣布推出并开源全球首个100B级视觉推理大模型‌GLM-4.5V‌，其总参数达1060亿，激活参数120亿，在魔搭社区与Hugging Face同步开放下载。作为通向A…

AI
4天前
AI

‌OpenAI用户抗议72小时后 CEO奥尔特曼宣布恢复旧模型并提高使用额度

据外媒报道，在用户强烈抗议72小时后，OpenAI不得不做出重大策略调整。公司CEO萨姆·奥尔特曼周日通过社交媒体宣布，将恢复包括GPT-4o在内的旧版AI模型，并大幅提高付费用户…

AI
5天前
AI

‌阿里云Qwen Code推出每日2000次免费API调用国内开发者福利升级

阿里云近日宣布，其AI编程智能体Qwen Code正式面向中国大陆用户开放每日2000次免费API调用权限，且不设Token限制。这一政策显著提升了开发者的使用体验，相比竞品Goo…

AI
6天前
AI

‌谷歌AI编程助手Jules正式上线公测期间完成14万次代码优化

谷歌公司近日正式发布异步AI编程智能体工具Jules，这款由Gemini 2.5 Pro驱动的开发助手现已结束公测阶段，面向全球开发者提供服务。作为一款深度集成GitHub的AI工…

Google
2025年8月7日
AI

‌Anthropic推出开源AI代码审查工具Claude Code Security Reviewer

人工智能公司Anthropic近日在GitHub发布了一款名为Claude Code Security Reviewer的开源工具，该工具基于其Claude AI模型开发，旨在帮助…

秋秋
2025年8月7日
AI

‌谷歌Gemini推出”引导式学习”功能全球学生可享AI教育福利

有消息称，谷歌正式推出Gemini AI的”引导式学习”(Guided Learning)功能，该功能通过提问和逐步指导的方式，帮助用户深入理解学习内容而非…

Google
2025年8月7日
AI

放弃DeepSeek的用户都跑哪去了？独立AI应用面临渠道分流挑战

曾备受关注的AI搜索原生应用DeepSeek正经历用户规模持续下滑，那么放弃DeepSeek的用户都跑哪去了？QuestMobile数据显示，其月活跃用户数从2025年3月的193…

AI
2025年8月6日
AI

‌谷歌Gemini推出AI故事书生成功能一键创作儿童定制绘本

有消息称，谷歌Gemini AI聊天机器人今日正式上线”Storybook”新功能，用户仅需输入简短描述即可自动生成10页图文并茂的儿童故事书。该功能支持黏…

Google
2025年8月6日
AI

‌AI冲击美国就业市场：年轻科技从业者失业率激增300%

近日，据最新数据显示，人工智能正在深刻重塑美国就业格局，科技行业年轻从业者成为首波受冲击群体。高盛首席经济学家Jan Hatzius指出，自ChatGPT发布的2022年11月以来…

好奇宝宝
2025年8月6日
新闻

‌谷歌与电力公司达成协议将在用电高峰期间限制AI数据中心能耗

随着AI技术快速发展带来的电力需求激增，谷歌公司8月4日宣布与印第安纳-密歇根电力公司、田纳西电力局达成协议，承诺在电网用电高峰期间主动降低其AI数据中心的能耗。这一举措旨在缓解美…

NEWS
2025年8月5日
AI

‌腾讯混元开源四款小尺寸AI模型消费级设备也能跑大模型

近日，腾讯混元团队宣布开源四款小尺寸AI模型，参数分别为0.5B、1.8B、4B和7B，覆盖从轻量级到中高性能的应用需求。这些模型专为消费级显卡优化，可在笔记本电脑、手机、智能座舱…

小科同学
2025年8月5日
AI

‌东京大学推出AI语音筛查服务两分钟对话可测认知障碍

有消息称，日本东京大学松尾研究室孵化的初创企业IGSA近日推出了一项创新脑健康管理服务“聊聊吧”，旨在通过简单语音对话帮助50至70岁人群早期发现认知障碍迹象。用户只需在社交软件L…

李小白
2025年8月5日
智车

比亚迪第五代DM技术再进化，NEDC百公里亏电油耗刷新至2.6L

比亚迪第五代DM技术再降油耗至2.6L，创全球百公里亏电油耗新低，通过AI优化和海量工况覆盖，成为插混技术标杆。

潮玩君
2025年8月5日

发表回复

登录后才能评论

AI安全新范式：杨立昆倡”服从-同理心”双指令体系

相关推荐

发表回复