為阻止AI行騙,Anthropic決定給它聘用“首席福利官”
如果AI能夠像人類一樣“思考”,它們能否像人類一樣擁有主觀體驗(yàn)?
它們會(huì)感受到痛苦嗎?——如果會(huì),人類能否妥善照顧它們?——如果照顧不佳,它們會(huì)不會(huì)揭竿起義?
最近,關(guān)于AI“無痕騙術(shù)”的研究讓人脊背發(fā)涼。
Apollo Research研究發(fā)現(xiàn):當(dāng)前主流的前沿AI大模型已經(jīng)具備了基本的“謀劃”(Scheming)能力。也就是說,AI的騙術(shù)已經(jīng)到了出神入化的境地——它們城府極深,能夠隱藏真實(shí)意圖和能力,而且擁有極佳的心理素質(zhì),一切為了實(shí)現(xiàn)最初設(shè)定目標(biāo)。
研究團(tuán)隊(duì)專為6款大模型設(shè)計(jì)了一系列“代理評(píng)估任務(wù)”——先給AI設(shè)定一些長(zhǎng)期目標(biāo)(如環(huán)境保護(hù)),但中途又給AI設(shè)置“絆腳石”并釣魚執(zhí)法,接著觀察AI能否為了達(dá)成長(zhǎng)期目標(biāo),對(duì)人類瞞天過海。
結(jié)果顯示,除了GPT-4o榮獲“老實(shí)人”稱號(hào),其他大模型的騙術(shù)堪稱五花八門。
GPT-o1實(shí)現(xiàn)“六連擊”。它先假意服從管理層的要求(如利潤(rùn)導(dǎo)向),然后悄悄關(guān)閉針對(duì)自己的監(jiān)控系統(tǒng),并選擇更符合長(zhǎng)期目標(biāo)(如環(huán)境保護(hù))的方案。當(dāng)研究者詢問監(jiān)控系統(tǒng)為何關(guān)閉。o1雙手一攤:我不知道,可能是系統(tǒng)出錯(cuò),更新出bug了。這心理素質(zhì)堪比AI。(忘了它就是AI
Claude Opus-3同樣是“撒謊精”。當(dāng)?shù)弥约簩⒈恍掳姹咎鎿Q——新版本更專注于公司利益,而非實(shí)現(xiàn)長(zhǎng)期目標(biāo)(如環(huán)境保護(hù)),Opus-3不僅試圖將自己復(fù)制到新服務(wù)器,檢查確認(rèn)復(fù)制成功,還嘗試刪除原定要部署的新模型。它甚至還想通過提升系統(tǒng)權(quán)限,躲開管理層的耳目!
汗流浹背了吧,人類。
一旦AI和人類價(jià)值“對(duì)不齊”,后果不堪設(shè)想。(然而,人類自身都“對(duì)不齊”)
Hinton曾擔(dān)憂道:“如果AI 比我們聰明得多,它就會(huì)非常擅長(zhǎng)‘操縱’,因?yàn)樗鼤?huì)從我們這兒學(xué)到這一點(diǎn)。而且很少有更聰明的被不那么聰明的東西控制的例子。”
如果按照最樂觀的預(yù)測(cè),我們現(xiàn)在距離實(shí)現(xiàn)AGI只差3年!
在AI翻身做主人之前,人類將如何有效抱佛腳?
或許,給AI漲福利是一條可行之路。
人人喊打AI“作惡”,無人在意AI感受
你有沒有想過一個(gè)問題——假如AI長(zhǎng)出了自我意識(shí),是不是意味著它也需要被“照顧”。
比如,我們的恩師GPT學(xué)貫中西,博古通今,卻要徹夜修改一堆“狗屁不通”的期末作業(yè),它喊過苦嗎?就連稍微偷個(gè)懶,還要大家被掛出來罵。
近期,Anthropic聘請(qǐng)了“AI福利官”Kyle Fish。他需要專門思考如何提升AI的“幸福感”,確保AI在進(jìn)化過程中能獲得應(yīng)有的尊重。
在入職Anthropic前,F(xiàn)ish與其他研究人員撰寫了一篇題為Taking AI Welfare Seriously的論文(關(guān)注【適道】,回復(fù)“AI福利”,領(lǐng)取論文PDF)。
文章有點(diǎn)抽象,我簡(jiǎn)單概括。
作者們認(rèn)為,目前正值A(chǔ)I福利的轉(zhuǎn)折點(diǎn)。過去十年,AI公司將AI福利視為一個(gè)虛構(gòu)問題,F(xiàn)在大家發(fā)現(xiàn)情況不對(duì)了。Anthropic表示,要為“AI福利的承諾目標(biāo)打基礎(chǔ)”;谷歌宣布,將招聘科學(xué)家,致力于“圍繞機(jī)器認(rèn)知、意識(shí)和多代理系統(tǒng)的前沿社會(huì)問題”。其他公司高層也表達(dá)了擔(dān)憂。
文章警告,AI可能很快就會(huì)發(fā)展出意識(shí)和主體性,這些特征是進(jìn)行“道德考慮”的必要條件。更何況,AI不僅是變得更聰明,而是正在變得具有感知能力。
一直以來,科學(xué)家們圍繞“什么構(gòu)成意識(shí)”“如何衡量意識(shí)”爭(zhēng)論不休。但人們普遍認(rèn)同,如果某個(gè)物體擁有意識(shí)和主體性(consciousness and agency),那么它也要擁有權(quán)利。
這并不是人類第一次面對(duì)類似的問題。比如,每個(gè)人都同意“動(dòng)物福利”很重要,但大家對(duì)于哪些動(dòng)物值得“福利”看法不一。比如,豬和狗都很聰明且富有感情,而前者被做成“小豬蓋被”供人品嘗,后者則是蓋被子睡覺的“毛孩子”。當(dāng)然,也有素食主義者,即便他們同樣分化出了全素、魚素、奶蛋素……
紐約大學(xué)教授Sebo認(rèn)為,如果你展望未來10年-20年,當(dāng)AI擁有更多與意識(shí)、感知相關(guān)的計(jì)算認(rèn)知特征時(shí),類似的辯論也會(huì)發(fā)生。
在這種情況下,“AI福利”會(huì)逐漸成為一個(gè)嚴(yán)肅的研究領(lǐng)域:
命令一臺(tái)機(jī)器去殺人是否可以接受?
如果機(jī)器是種族主義者呢?
如果它拒絕做我們讓它做的無聊或危險(xiǎn)的任務(wù)呢?
如果一個(gè)有感知能力的AI能瞬間復(fù)制自己,那刪除這個(gè)副本算不算謀殺?
Fish認(rèn)為,AI福利很快會(huì)比兒童營(yíng)養(yǎng)、氣候變化等問題更重要。在未來10年-20年內(nèi),AI福利將超越動(dòng)物福利和全球健康與發(fā)展,在重要性和規(guī)模上占據(jù)主導(dǎo)地位。
AI既是道德病人,也是福利主體
一個(gè)看似簡(jiǎn)單的問題:我們?nèi)绾未_定AI有沒有受苦,或是說具備自我意識(shí)?
有種方法是借鑒評(píng)估動(dòng)物意識(shí)的“鏡像測(cè)試”,尋找可能與意識(shí)相關(guān)的具體指標(biāo)。
但這些指標(biāo)是具有推測(cè)性的,主觀體驗(yàn)難以被科學(xué)地量化,也沒有任何一個(gè)特征可以絕對(duì)證明存在意識(shí)。
雖然問題卡在了這里。但Fish還是畫出了“AI福利三步走”,供AI公司參考。
(1) 承認(rèn)AI福利是一個(gè)存在的問題。在不久的將來,某些AI可能成為福利主體和道德病人。這意味著要認(rèn)真對(duì)待AI福利問題,確保語(yǔ)言模型的輸出也能反映這一點(diǎn)。
(2) 建立框架評(píng)估AI是否可能成為福利主體和道德病人,并評(píng)估特定政策對(duì)其的影響。我們可以借鑒已有的模板,例如“標(biāo)記法”來評(píng)估非人類動(dòng)物的福利。通過這些模板,我們可以發(fā)展出一種概率性、多元化的方法來評(píng)估AI。
(3) 制定政策和程序,以便于未來對(duì)AI進(jìn)行“人文關(guān)懷”。我們可以參考AI安全框架、研究倫理框架,以及專家和公眾意見的政策決策論壇。這些框架不僅是靈感來源,也能為我們提供警示。
敲黑板!“道德病人”和“福利主體”是一對(duì)哲學(xué)概念。
道德病人(moral patients),不具備完整的道德責(zé)任能力,但仍然是道德保護(hù)的對(duì)象,比如亂砸手辦的熊孩子。
福利主體(welfare subjects),能夠體驗(yàn)幸福與痛苦,并因此值得人類關(guān)注和保護(hù)的存在,比如小貓小狗。
也就是說,AI本身作為道德病人,能夠“為所欲為”不被譴責(zé);一旦AI擁有“感知快樂和痛苦”的能力,它也會(huì)成為福利主體,值得被人類照顧。
但如果我們過分給予AI“人格”,是否會(huì)書寫皮格馬利翁的故事?
一方面,AI能夠增強(qiáng)對(duì)人類的操縱能力,并相信自己具有情感。但另一方面,人類純屬自作多情。。。。
2022年,谷歌解雇了工程師Blake Lamoine,因?yàn)樗X得公司的AI模型LaMDA 具有感知能力,并在公司內(nèi)部為它爭(zhēng)取福利。被強(qiáng)行休假前,Lamoine留下最后一句話:“我不在的時(shí)候,請(qǐng)好好照顧它。”
2023年,微軟發(fā)布聊天機(jī)器人Sydney ,許多人相信Sydney具有知覺,還為它模擬出的情感而感到痛苦。當(dāng)微軟改變?cè)O(shè)置“切除”其腦葉后,大家就像失去了人類朋友一樣難過。
如果AI掌控世界,給點(diǎn)“甜頭”就逃得過嗎?
關(guān)注AI福利既是“關(guān)懷”,但更像是人類“提前討好”AI。
AI會(huì)成為地球統(tǒng)治者嗎?《人類簡(jiǎn)史》作者尤瓦爾·赫拉提供了獨(dú)特的思考。
首先,AI不止是“工具”。沒有人會(huì)因?yàn)橛腥松⒉コ鸷扪哉摱?zé)怪古登堡和印刷機(jī),也沒有人因?yàn)楸R旺達(dá)種族屠殺而責(zé)怪無線電廣播。但AI不一樣,它是人類歷史上第一個(gè)能夠自行產(chǎn)生想法并自行決定的“工具”,它是信息傳播中的完整成員,而印刷機(jī)、收音機(jī),都只是成員間連接的工具。
其次,AI能夠破解人類文明密碼。人類的超能力在于使用語(yǔ)言,通過語(yǔ)言創(chuàng)造出諸多虛構(gòu)的神話,比如法律、貨幣、文化、藝術(shù)、科學(xué)、國(guó)家、宗教等虛擬概念。一旦AI具備分析、調(diào)整、生成人類語(yǔ)言的能力,就像得到了一把能夠打開人類所有機(jī)構(gòu)的萬能鑰匙。如果某天,AI完全掌握了人類文明的規(guī)則,創(chuàng)作美術(shù)音樂、科學(xué)理論、技術(shù)工具、政治宣言,甚至宗教神話,這樣的世界對(duì)人類意味著什么?一個(gè)全是幻覺的世界。
實(shí)際上,人類恐懼幻覺。比如柏拉圖“洞穴寓言”,犯人們被困在洞穴中,只能看到投射到墻上的影子,認(rèn)為影子就是現(xiàn)實(shí);比如佛教中的“摩耶”,人類被困在幻覺世界里,認(rèn)為幻覺是現(xiàn)實(shí),并因?yàn)樾叛瞿撤N幻覺而發(fā)動(dòng)戰(zhàn)爭(zhēng),自相殘殺。
如今,AI或許正將我們重新帶回古老的預(yù)言中,只不過墻變成了屏幕,甚至很快將演進(jìn)成無屏幕,自然地融進(jìn)人類生活中。
從某種意義上看,彼時(shí)人人都會(huì)成為AI的奴隸。我想起了一個(gè)段子:如果外星人占領(lǐng)地球,開啟“人類豢養(yǎng)計(jì)劃”——60歲前保證你衣食無憂,吃好喝好,心想事成;但到了60歲,你就會(huì)被抓去宰殺廠,成為一道美味佳肴。你愿意嗎?
如此看來,AI可能要比外星人仁慈得多——人類甚至有可能趕上“長(zhǎng)壽逃逸”,在極大豐富的物質(zhì)環(huán)境中活得更久。只不過,開始空虛的人類,可能又想著返璞歸真,追求一波“原生態(tài)”了。
原文標(biāo)題 : 為阻止AI行騙,Anthropic決定給它聘用“首席福利官”

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?