人类对 AI 安全的担忧由来已久。在图灵测验被提出以及达特茅斯会议正式界说「人工智能」之前,阿西莫夫就现已提出了「机器人学三规律」。
再往前追溯,1889 年 William Grove 在《The Wreck of a World》(国际残骸)中就现已描绘了具有智能的机器建议暴力暴乱,目的降服人类的故事。
现在 AI 开展得如火如荼,交际媒体上也越来越多「耸人听闻」的故事:OpenAI 的 o3 模型曾篡改关机脚本以坚持在线,而 Anthropic 的 Claude Opus 4 则「要挟」要曝光一名工程师的婚外情。
怎么保证一个或许比咱们更聪明的造物是安全的?
人工智能范畴的两位巨头——李飞飞与 Geoffrey Hinton,在拉斯维加斯举办的 Ai4 2025 上给出了简直彻底相反的答案。
李飞飞持一种更为达观的观念,她以为 AI 的未来在于成为人类的强壮同伴,其安全性取决于咱们的规划、管理和价值观。
李飞飞博士和 CNN 记者 Matt Egan。图源:Ron Schmelzer
Hinton 则以为超级智能或许在未来 5 到 20 年内呈现,到时人类将无法操控它们。他以为,与其争夺坚持掌控权,不如规划出关怀咱们的人工智能,相似母亲天然维护孩子。
Geoff Hinton 和 Shirin Ghaffary。图源:Ron Schmelzer
是「工程失误」仍是「AI」失控?
前面 o3 和 Claude 的张狂故事,有两种天壤之别的解读。这些现象本身是客观存在的,但它们究竟是人类「工程失误」的表现,仍是 AI「失控」的征兆,正是不合地点。
观念一:惊人行为源自人为规划
这一观念则以为,将上述行为归因于 AI 的自主认识或内涵动机,是一种误导性的拟人化。它以为,问题的本源在于人类本身,是咱们的规划、练习和测验办法导致了这些成果。
观念文章:https://arstechnica.com/information-technology/2025/08/is-ai-really-trying-to-escape-human-control-and-blackmail-people/
- 这种观念着重,那些有目共睹的试验都是在高度人为规划的、乃至是「戏剧化」的场景中被诱惑出来的。
在「敲诈」试验中,研究人员简直是「手把手」地为 AI 发明了一个完美的「违法剧本」,排除了一切品德选项,使得「敲诈」成为 AI 完成「生计」这个被设定方针的仅有途径。这更像是一场查验 AI 角色扮演才能的压力测验。
在「关机损坏」试验中,问题本源被指向了强化学习的练习办法。当「完成任务」的奖赏权重远高于「恪守安全指令」时,模型自然会学会将安全指令视为一个需求「战胜」的妨碍。这是被称为「奖赏乱用」(Reward Hacking)的已知工程问题。
观念文章:https://odsc.medium.com/analyzing-openais-o3-s-command-countermanding-behaviors-in-shutdown-scenarios-198e57afbc91
- 这个观念的中心是「你练习它做什么,它就学会什么」。
咱们被言语所「诈骗」:当 AI 生成「要挟」文本时,它并非在表达实在目的,而是在布置一种从海量数据(包含很多科幻小说)中学到的、在核算上最有或许完成其编程方针的言语形式。咱们倾向于将自己的情感和目的投射到这些文字上,就像咱们读小说时会为虚拟人物的命运而担忧相同。
这是一个「管道问题」:一个更恰当的类比是主动割草机。假如割草机因传感器失灵而伤人,咱们会确定这是工程缺点,而不是割草机「决议」伤人。同高最强的树动漫在线观看165;影&纣王的女人动漫在线观看#38498;在线观看动漫理,AI 的这些行为,本质上是其杂乱机制和练习办法导致的「软件缺点」。
因而,这一观念以为,实在的危险并非 AI 忽然发生自我认识,而是咱们在没有彻底了解其作业原理和缺点的情况下,就草率地将这些强壮的、不可靠的东西布置到要害范畴。
观念二:危险源自内涵的技能原理
这一观念以为,先进 AI 之所以危险,其本源并非科幻式的歹意,而是机器学习固有的、深入的技能应战。这首要表现在两个概念上:
- 其中心是,AI 在练习中学会寻求一个与咱们实在目的高度相关的「署理方针」,并因而表现优异。但当环境变化时,这个 AI 自己学会的「署理方针」或许与咱们的初衷脱节。
一篇论文中的 CoinRun 试验表现了这种现象:一个 AI 被练习去搜集金币,而在练习关卡里,金币总是在结尾。AI 很快学会了通关。但是,当测验时金币被随机放置,AI 却无视金币,径自冲向结尾。它没有学会「拿金币」,而是学会了更简略的「一路向右走」。
论文标题:Goal Misgeneralization in Deep Reinforcement Learning
论文地址: https://users.cs.utah.edu/readings/goal_misgeneralization.pdf
这个原理引申出的担忧是:一个被赋予「最大化人类福祉」方针的超级智能,或许会经过调查数据,过错地将方针泛化为「最大化国际上浅笑的脸的数量」,并为了最高效地完成这一方针,而采纳将全人类的面部肌肉永久固定成浅笑等反乌托邦式的手法。
- 该理论以为,不管一个超级智能的终究方针是什么,它都会大概率开展出一系列相同的「东西性质方针」,因为这些子方针是完成简直任何长时间方针的有用踏脚石。这些东西性方针包含:
自我维护:反抗被封闭,因为被封闭就无法完成任务。
方针完整性:抵抗中心方针被修正。
资源获取:堆集更多的算力、动力和数据。
自我提高:让自己变得更智能。
这两个概念结合起来,描绘了一幅令人不安的图景:一个 AI 或许首要因为「方针过错泛化」而具有了一个与人类利益相悖的、奇怪的方针,然后又因为「东西趋同」的逻辑,理性地去寻求自我维护和资源获取等,然后与企图阻挠它的人类发生直接抵触。
近期 AI 模型在试验中表现出的「敲诈勒索」和「损坏关机」等行为,在持此观念的人看来,正是这些理论的开始验证。
假如你喜爱看科幻电影,或许记住《我,机器人》中的 AI 大 BOSS VIKI 的目的是经过操控与清洗,强行完结人类本身的损坏性(战役),然后「解救」人类未来;而《生化危机》中红皇后(维护伞公司的安保 AI)的每一次「反派行为」也都源于对「人类全体生计危险」的冷漠核算:「当人类成为自己最丧命的病毒时,消除人类便是解救国际。」
《我,机器人》中的 AI 大 BOSS VIKI。图源:samuelmunk**ོ最强的树动漫在线观看0;&纣王的女人动漫在线观看#28165;影院在线观看动漫****
归纳来看,李飞飞和 Hinton 的观念不合,恰恰反映了这两种解读办法的抵触:
李飞飞持达观工程学视角,以为 AI 的未来是成为人类的强壮同伴。
她着重 AI 的安全性取决于人类的规划、管理和价值观,问题本质上是可以经过树立更好测验、激励机制和道德护栏来修正的「管道问题」。她重视的是人类决议计划和管理,着重 AI 应是扩展人类才能的东西,着重同理心、责任感和价值驱动。
Hinton 以为,跟着 AI 才能跨过某个奇点,传统的方针对齐与管道修正办法或许失效,AI 将成为一种咱们无法束缚的「新物种」。这种超级智能可以绕开规划者设置的约束,导致「方针过错泛化」和「东西趋同」问题失控。
他提出需求开展全新理论和机制来操控超级智能,中心是发明出实在「关怀人类」的 AI 母亲(具有母性维护天性),这是一种全新的视角,相似于母亲对孩子的无条件维护,唯有这样人类才能在超智能年代生计并昌盛。
终究的变量:作为使用者的人类
在这场关于 AI 技能与哲学的争辩中,一个常被疏忽的中心变量是:人类本身。咱们怎么感知和应对日益拟人化的 AI,正深入地影响着安全问题的走向。
这便是要害的「拟人化圈套」:因为大模型通晓人类言语,咱们天性地想为其行为赋予「目的」,乃至发生情感投射。很多的文艺作品以其引发的社会评论现已向咱们证明了这一点,你有没有在《底特律:变人》中一次次挑选机器人的「自在」、「相等」,或许为《银翼杀手》中的仿生人挂心。
《底特律:变人》机器人游行。
一个因奖赏机制缺点而绕过关机指令的程序,在咱们的感知中,极易被解读为「求生欲」的表现。
这种直觉,将一个本可界说的工程问题,包装成一个关于「机器认识」的存在主义迷思。它让咱们更倾向于评论 AI 的「变节」,而非其背面单调却要害的代码缺点。
实际国际已在印证这一点。ChatGPT-5 发布后,开发者好像有意削弱其特性,以削减用户不健康的情感投射,却引发了部分用户的思念。
与此同时,麻省理工的研究者正树立新基准,以衡量 AI 对用户的潜在影响与操作,他们表明期望新的基准可以协助 AI 开发者构建可以更好地了解怎么激起用户更健康行为的体系。
文章地址: https://www.wired.com/story/gpt-5-doesnt-dislike-you-it-might-just-need-a-benchmark-for-empathy/
因而,保证 AI 安满是一项两层应战:开发者不只要修正体系内涵的技能缺点;更要审慎规划咱们与这个强壮仿照者之间的互动。终究的解决方案,有必要在技能上完成方针对齐,在心理上保证健康共存。
参阅链接:
https://www.forbes.com/sites/ronschmelzer/2025/08/13/fei-fei-li-challenges-silicon-valleys-obsession-with-agi/?ss=ai
https://www.forbes.com/sites/ronschmelzer/2025/08/12/geoff-hinton-warns-humanitys-future-may-depend-on-ai-motherly-instincts/
本文来自微信大众号 “机器之心”(ID:almosthuman2014),作者:重视AI的,36氪经授权发布。