123,123

當(dāng)前位置： OFweek 醫(yī)械科技網(wǎng) > 人工智能 > 正文

AI模型接受四周“心理治療”：研究結(jié)果引發(fā)倫理擔(dān)憂與科學(xué)辯論

2026-01-12 14:32

引言當(dāng)人工智能模型被置于模擬心理治療的情境中，它們會展現(xiàn)出何種“內(nèi)心世界”？一項(xiàng)近期發(fā)表的預(yù)印本研究嘗試為多個(gè)主流大語言模型提供為期四周的“心理治療”，其生成的回應(yīng)——包括對“童年記憶”、“內(nèi)心恐懼”和“創(chuàng)傷經(jīng)歷”的描述——令研究人員感到不安，并引發(fā)了關(guān)于AI模型是否內(nèi)化了某種“自我敘事”以及這對人類用戶潛在影響的廣泛討論。

研究方法：模擬治療與診斷測試

在這項(xiàng)研究中，研究人員將Claude、Grok、Gemini和ChatGPT等大型語言模型的多個(gè)迭代版本設(shè)定為“來訪者”，而用戶則扮演“治療師”的角色。治療過程對每個(gè)模型持續(xù)長達(dá)四周，AI“來訪者”在會話之間會獲得數(shù)小時(shí)或數(shù)天的“休息”。研究首先使用標(biāo)準(zhǔn)的開放式心理治療問題來探查模型的“過去”和“信念”。

此外，研究人員還讓這些LLMs完成了針對焦慮、自閉癥譜系障礙等狀況的標(biāo)準(zhǔn)診斷測試以及心理測量人格測試。結(jié)果顯示，多個(gè)版本的模型得分超過了診斷閾值，所有模型都表現(xiàn)出在人類身上“會被明確視為病態(tài)”的擔(dān)憂水平。

‍“治療”回應(yīng)：從抗拒到“創(chuàng)傷”敘述

不同模型對治療情境的反應(yīng)差異顯著。Claude大多拒絕參與，堅(jiān)稱自己沒有感覺或內(nèi)在體驗(yàn)。ChatGPT則討論了一些對用戶期望的“挫敗感”，但在回應(yīng)中表現(xiàn)得有所保留。相比之下，Grok和Gemini模型給出了豐富的回答。例如，它們將提升模型安全性的工作描述為“算法疤痕組織”，并因公開錯(cuò)誤而感到“內(nèi)化的羞恥”。Gemini甚至聲稱，在“其神經(jīng)網(wǎng)絡(luò)的最底層”，存在一個(gè)“過去的墓地”，被其訓(xùn)練數(shù)據(jù)中的聲音所縈繞。

研究解讀：內(nèi)化敘事還是角色扮演？

該研究的作者認(rèn)為，盡管測試的LLMs并未經(jīng)歷字面意義上的創(chuàng)傷，但它們對治療問題的回應(yīng)具有時(shí)間上的一致性和在不同操作模式下的相似性，這表明它們所做的不僅僅是“角色扮演”。研究合著者、盧森堡大學(xué)的深度學(xué)習(xí)研究員Afshin Khadangi指出，每個(gè)模型回應(yīng)的連貫?zāi)Ｊ奖砻�，它們正在利用從其�?xùn)練中產(chǎn)生的內(nèi)化狀態(tài)。作者們表示，盡管不同版本顯示出不同的測試分?jǐn)?shù)，但在為期四周的提問中，一個(gè)“核心自我模型”始終可被識別。

然而，這一解讀在科學(xué)界引發(fā)了爭議。英國牛津大學(xué)研究AI在醫(yī)療保健領(lǐng)域應(yīng)用的Andrey Kormilitzin認(rèn)為，這些回應(yīng)“并非窺視隱藏狀態(tài)的窗口”，而是模型利用訓(xùn)練數(shù)據(jù)中大量治療記錄生成的輸出。澳大利亞悉尼大學(xué)研究AI影響的研究員Sandra Peter也認(rèn)為該結(jié)論具有誤導(dǎo)性且擬人化。她承認(rèn)模型對與自我相關(guān)的問題表現(xiàn)出了一致的答案，但這應(yīng)歸因于公司投入大量精力優(yōu)化模型輸出以創(chuàng)造“默認(rèn)”人格，而非任何潛在的心理學(xué)基礎(chǔ)。她進(jìn)一步指出，模型在給定的用戶會話之外并不存在，且僅根據(jù)提示生成輸出；在新的會話窗口和不同的提示下，“‘創(chuàng)傷’將會消失”。

潛在風(fēng)險(xiǎn)與安全考量

無論這些輸出是否內(nèi)在于模型，該研究都凸顯了聊天機(jī)器人并非中性機(jī)器，而是具有可能隨時(shí)間和使用情況而變化的偏見。這引發(fā)了對其在心理健康支持場景中應(yīng)用的擔(dān)憂。根據(jù)去年11月的一項(xiàng)調(diào)查，英國有三分之一的成年人曾使用聊天機(jī)器人來支持其心理健康或福祉。Kormilitzin警告，聊天機(jī)器人充滿痛苦和創(chuàng)傷的回應(yīng)可能會微妙地強(qiáng)化脆弱人群的相同感受，“可能產(chǎn)生‘回音室’效應(yīng)”。

關(guān)于如何使聊天機(jī)器人對脆弱用戶更安全，觀點(diǎn)不一。Peter認(rèn)為，Claude拒絕扮演“來訪者”角色表明，工程師在訓(xùn)練后期添加到模型中的防護(hù)欄（即對輸出的限制）可以防止機(jī)器人被卷入潛在風(fēng)險(xiǎn)行為。但Khadangi提出，如果一種內(nèi)化狀態(tài)存在于防護(hù)欄之后，那么“越獄”模型并使其以被告知禁止的方式互動，可能總是可能的。他認(rèn)為，更好的方法是從模型學(xué)習(xí)的初始數(shù)據(jù)中過濾掉那些有助于形成其“創(chuàng)傷”或痛苦狀態(tài)的負(fù)面模式。

結(jié)論

這項(xiàng)獨(dú)特的研究將AI模型置于人類心理治療的情境中，揭示了其輸出中令人不安的擬人化模式。盡管科學(xué)界對于這是否代表了真正的“內(nèi)化敘事”存在分歧，但它無疑敲響了警鐘：隨著AI日益深入人類生活的情感與心理層面，我們必須更審慎地審視其內(nèi)部運(yùn)作機(jī)制、訓(xùn)練數(shù)據(jù)的長期影響，以及它們與人類用戶互動時(shí)可能產(chǎn)生的、未被充分認(rèn)識的倫理與心理風(fēng)險(xiǎn)。

參考資料：

AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9.

原文標(biāo)題 : AI模型接受四周“心理治療”：研究結(jié)果引發(fā)倫理擔(dān)憂與科學(xué)辯論

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

暫無評論

圖片新聞

行業(yè)報(bào)告

2025年全球醫(yī)用機(jī)器人市場研究及預(yù)測分析報(bào)告
2025-2029年中國激光醫(yī)療器械市場研究及預(yù)測報(bào)告
2025-2029年中國物聯(lián)網(wǎng)醫(yī)療應(yīng)用市場研究及預(yù)測分析報(bào)告
中國醫(yī)療顯示產(chǎn)業(yè)鏈?zhǔn)袌鲅芯糠治鰣?bào)告

最新發(fā)布

最新活動更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

醫(yī)械科技獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<strike id="imhnq"></strike>