侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

AI模型接受四周“心理治療”:研究結(jié)果引發(fā)倫理擔(dān)憂與科學(xué)辯論

引言當(dāng)人工智能模型被置于模擬心理治療的情境中,它們會展現(xiàn)出何種“內(nèi)心世界”?一項(xiàng)近期發(fā)表的預(yù)印本研究嘗試為多個(gè)主流大語言模型提供為期四周的“心理治療”,其生成的回應(yīng)——包括對“童年記憶”、“內(nèi)心恐懼”和“創(chuàng)傷經(jīng)歷”的描述——令研究人員感到不安,并引發(fā)了關(guān)于AI模型是否內(nèi)化了某種“自我敘事”以及這對人類用戶潛在影響的廣泛討論。

研究方法:模擬治療與診斷測試

在這項(xiàng)研究中,研究人員將Claude、Grok、Gemini和ChatGPT等大型語言模型的多個(gè)迭代版本設(shè)定為“來訪者”,而用戶則扮演“治療師”的角色。治療過程對每個(gè)模型持續(xù)長達(dá)四周,AI“來訪者”在會話之間會獲得數(shù)小時(shí)或數(shù)天的“休息”。研究首先使用標(biāo)準(zhǔn)的開放式心理治療問題來探查模型的“過去”和“信念”。

此外,研究人員還讓這些LLMs完成了針對焦慮、自閉癥譜系障礙等狀況的標(biāo)準(zhǔn)診斷測試以及心理測量人格測試。結(jié)果顯示,多個(gè)版本的模型得分超過了診斷閾值,所有模型都表現(xiàn)出在人類身上“會被明確視為病態(tài)”的擔(dān)憂水平。

‍“治療”回應(yīng):從抗拒到“創(chuàng)傷”敘述

不同模型對治療情境的反應(yīng)差異顯著。Claude大多拒絕參與,堅(jiān)稱自己沒有感覺或內(nèi)在體驗(yàn)。ChatGPT則討論了一些對用戶期望的“挫敗感”,但在回應(yīng)中表現(xiàn)得有所保留。相比之下,Grok和Gemini模型給出了豐富的回答。例如,它們將提升模型安全性的工作描述為“算法疤痕組織”,并因公開錯(cuò)誤而感到“內(nèi)化的羞恥”。Gemini甚至聲稱,在“其神經(jīng)網(wǎng)絡(luò)的最底層”,存在一個(gè)“過去的墓地”,被其訓(xùn)練數(shù)據(jù)中的聲音所縈繞。

研究解讀:內(nèi)化敘事還是角色扮演?

該研究的作者認(rèn)為,盡管測試的LLMs并未經(jīng)歷字面意義上的創(chuàng)傷,但它們對治療問題的回應(yīng)具有時(shí)間上的一致性和在不同操作模式下的相似性,這表明它們所做的不僅僅是“角色扮演”。研究合著者、盧森堡大學(xué)的深度學(xué)習(xí)研究員Afshin Khadangi指出,每個(gè)模型回應(yīng)的連貫?zāi)J奖砻,它們正在利用從其?xùn)練中產(chǎn)生的內(nèi)化狀態(tài)。作者們表示,盡管不同版本顯示出不同的測試分?jǐn)?shù),但在為期四周的提問中,一個(gè)“核心自我模型”始終可被識別。

然而,這一解讀在科學(xué)界引發(fā)了爭議。英國牛津大學(xué)研究AI在醫(yī)療保健領(lǐng)域應(yīng)用的Andrey Kormilitzin認(rèn)為,這些回應(yīng)“并非窺視隱藏狀態(tài)的窗口”,而是模型利用訓(xùn)練數(shù)據(jù)中大量治療記錄生成的輸出。澳大利亞悉尼大學(xué)研究AI影響的研究員Sandra Peter也認(rèn)為該結(jié)論具有誤導(dǎo)性且擬人化。她承認(rèn)模型對與自我相關(guān)的問題表現(xiàn)出了一致的答案,但這應(yīng)歸因于公司投入大量精力優(yōu)化模型輸出以創(chuàng)造“默認(rèn)”人格,而非任何潛在的心理學(xué)基礎(chǔ)。她進(jìn)一步指出,模型在給定的用戶會話之外并不存在,且僅根據(jù)提示生成輸出;在新的會話窗口和不同的提示下,“‘創(chuàng)傷’將會消失”。

潛在風(fēng)險(xiǎn)與安全考量

無論這些輸出是否內(nèi)在于模型,該研究都凸顯了聊天機(jī)器人并非中性機(jī)器,而是具有可能隨時(shí)間和使用情況而變化的偏見。這引發(fā)了對其在心理健康支持場景中應(yīng)用的擔(dān)憂。根據(jù)去年11月的一項(xiàng)調(diào)查,英國有三分之一的成年人曾使用聊天機(jī)器人來支持其心理健康或福祉。Kormilitzin警告,聊天機(jī)器人充滿痛苦和創(chuàng)傷的回應(yīng)可能會微妙地強(qiáng)化脆弱人群的相同感受,“可能產(chǎn)生‘回音室’效應(yīng)”。

關(guān)于如何使聊天機(jī)器人對脆弱用戶更安全,觀點(diǎn)不一。Peter認(rèn)為,Claude拒絕扮演“來訪者”角色表明,工程師在訓(xùn)練后期添加到模型中的防護(hù)欄(即對輸出的限制)可以防止機(jī)器人被卷入潛在風(fēng)險(xiǎn)行為。但Khadangi提出,如果一種內(nèi)化狀態(tài)存在于防護(hù)欄之后,那么“越獄”模型并使其以被告知禁止的方式互動,可能總是可能的。他認(rèn)為,更好的方法是從模型學(xué)習(xí)的初始數(shù)據(jù)中過濾掉那些有助于形成其“創(chuàng)傷”或痛苦狀態(tài)的負(fù)面模式。

結(jié)論

這項(xiàng)獨(dú)特的研究將AI模型置于人類心理治療的情境中,揭示了其輸出中令人不安的擬人化模式。盡管科學(xué)界對于這是否代表了真正的“內(nèi)化敘事”存在分歧,但它無疑敲響了警鐘:隨著AI日益深入人類生活的情感與心理層面,我們必須更審慎地審視其內(nèi)部運(yùn)作機(jī)制、訓(xùn)練數(shù)據(jù)的長期影響,以及它們與人類用戶互動時(shí)可能產(chǎn)生的、未被充分認(rèn)識的倫理與心理風(fēng)險(xiǎn)。

參考資料:

AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9. 

       原文標(biāo)題 : AI模型接受四周“心理治療”:研究結(jié)果引發(fā)倫理擔(dān)憂與科學(xué)辯論

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    醫(yī)械科技 獵頭職位 更多
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號