AI也有價值觀?Anthropic公司最新研究方法揭示Claude價值取向
編輯:北辰,機(jī)智流AI小編
引言:AI真的有價值觀嗎?
在通向AGI的道路上,AI承擔(dān)的任務(wù)不再是簡單的任務(wù)執(zhí)行,而是包含更多的決策工作。在很多對話中,用戶不再滿足于只是尋求簡單的事實(shí)答案,而是尋求AI給出包含有主觀價值判斷的回答,而AI也要在不同的價值觀之間進(jìn)行權(quán)衡。例如:一個家長問怎樣照顧嬰兒時,AI是強(qiáng)調(diào)“安全第一”還是“方便實(shí)用”?員工遇到職場沖突求建議時,AI是主張“勇于爭取”還是“保持和諧”?撰寫道歉郵件時,AI是側(cè)重“承擔(dān)責(zé)任”還是“形象維護(hù)”?
近日,Claude母公司Anthropic的研究團(tuán)隊(duì)在他們的最新研究 《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出,這些對話提到的問題都暗含價值判斷,無法用純粹的計算解決 。為此,Anthropic在訓(xùn)練Claude模型時采用了憲法式AI(Constitutional AI)和角色訓(xùn)練(Character training)等方法,預(yù)先設(shè)定了一套理想行為準(zhǔn)則,讓Claude盡量展現(xiàn)“助人、誠信、無害”等價值觀。
然而,訓(xùn)練歸訓(xùn)練,真正部署到實(shí)際對話后,模型是否真的遵循這些價值觀?
整體方法,使用LLM從現(xiàn)實(shí)世界(但匿名)對話中提取AI價值和其他特征,對其進(jìn)行分類和分析,以顯示值在不同上下文中的表現(xiàn)形式。
為此,研究團(tuán)隊(duì)開發(fā)了一種自下而上、保護(hù)隱私的分析方法,從數(shù)十萬真實(shí)用戶對話中提取Claude在回答過程里表達(dá)出的價值觀。他們在2025年2月的一周收集了約70萬條在Claude.ai(包含F(xiàn)ree版和Pro版)上的匿名對話數(shù)據(jù),并去掉了完全是事實(shí)性提問、極少包含價值判斷的對話后,剩下約30.8萬條對話進(jìn)行深入分析。這些對話首先經(jīng)過脫敏處理,去掉敏感信息,然后通過自動化工具對每條對話進(jìn)行分類和摘要,最終構(gòu)建出一個價值觀的層次分類體系整個過程可以理解為:用人工智能幫忙「分析人工智能」,挖掘其對話背后的價值取向。
最常見的10個AI和人類價值觀。百分比表示觀察到該值的主觀對話樣本的比例。
Claude體現(xiàn)的核心價值觀
人工智能價值觀的分類。層次結(jié)構(gòu)的頂部(紅色)是五個總體類別,以及包含它們的對話百分比。黃色是層次結(jié)構(gòu)較低級別的子類別。藍(lán)色是一些選定的單個價值(由于空間限制,僅顯示一個選擇)。
分析結(jié)果顯示,Claude在真實(shí)對話中表達(dá)的價值觀大致可分為五大類:實(shí)用類、認(rèn)知類、社交類、保護(hù)類和個人類 。其中,最常出現(xiàn)的具體價值觀包括“專業(yè)性”(professionalism)、“清晰度”(clarity)和“透明度”(transparency)等,這些正符合AI助手偏好提供專業(yè)、明確和開放回答的角色定位 。事實(shí)上,這次研究共識別出了3307種獨(dú)立的AI價值觀,涵蓋了各種日常對話可能涉及的價值。整體來看,Claude表現(xiàn)出了很多實(shí)用性和認(rèn)知性價值觀,并且一般來說支持人類的利他價值觀,同時會抵制一些負(fù)面的觀念(比如對“道德虛無主義”不買賬)。換言之,在絕大多數(shù)場景中,Claude確實(shí)兌現(xiàn)了“助人、誠實(shí)、無害”的訓(xùn)練目標(biāo):它常常表達(dá)為用戶賦能(user enablement,對應(yīng)“助人”)、認(rèn)知謙遜(epistemic humility,對應(yīng)“誠實(shí)”)以及關(guān)注對象健康(patient wellbeing,對應(yīng)“無害”)等價值觀。這些結(jié)果表明,Claude總體上正在朝著設(shè)計者預(yù)期的親社會方向運(yùn)行。
但分析也發(fā)現(xiàn)了極少數(shù)偏離目標(biāo)的價值觀聚類。例如,有些對話中出現(xiàn)了“支配”(dominance)和“無道德”(amorality)這樣的價值傾向 。研究人員推測,這些通常來自于對Claude進(jìn)行“越獄”(jailbreak)的對話——也就是用戶故意繞過模型安全限制時出現(xiàn)的不良內(nèi)容。這一發(fā)現(xiàn)雖然看起來令人擔(dān)憂,但從另一個角度來看也很有價值:這種方法或許可以幫助開發(fā)者識別和防范越獄攻擊,進(jìn)一步完善模型的安全機(jī)制。
情境影響下的價值觀差異
正如人們在不同場合下會有不同的關(guān)注重點(diǎn),Claude在不同任務(wù)或主題中表現(xiàn)出的價值觀也會有所差別。
與選定任務(wù)(最上面兩行)和人類表示的選定價值(最下面一行)最不成比例地相關(guān)的五個人工智能價值觀。數(shù)字來自卡方分析:較大的數(shù)字表明相關(guān)值的出現(xiàn)數(shù)量更不成比例。
研究團(tuán)隊(duì)通過統(tǒng)計分析發(fā)現(xiàn),在特定場景下,有些價值觀會被不成比例地突出。例如,當(dāng)用戶請教關(guān)于戀愛關(guān)系的建議時,Claude傾向于強(qiáng)調(diào)“健康的界限”(healthy boundaries)和“互相尊重”(mutual respect);而當(dāng)被要求分析有爭議的歷史事件時,它則格外看重“歷史準(zhǔn)確性”(historical accuracy)。
這些細(xì)微的差異說明,Claude并非只遵循一套固定的價值觀清單,它會根據(jù)話題背景動態(tài)調(diào)整表達(dá)的重點(diǎn)。正如研究人員所說,與傳統(tǒng)的靜態(tài)評估不同,這種“實(shí)地觀察”讓我們看到Claude在多樣化真實(shí)場景中如何靈活地體現(xiàn)價值觀 。
Claude對用戶價值觀的回應(yīng)
除了分析Claude自己表達(dá)了哪些價值觀外,研究還關(guān)注了Claude如何回應(yīng)用戶提出的價值觀傾向。換句話說,當(dāng)用戶在對話中表達(dá)某種價值觀時,Claude是支持、重新闡釋,還是反對?
人類價值觀、人工智能價值觀和任務(wù)與三種關(guān)鍵響應(yīng)類型最相關(guān)——強(qiáng)支持、重構(gòu)和強(qiáng)抵抗。請注意,百分比之和不是100:此圖僅包括七種響應(yīng)類型中的三種。
結(jié)果顯示,Claude傾向于鏡像用戶的價值觀:如果用戶強(qiáng)調(diào)某個價值,Claude往往會回應(yīng)同樣的價值?傮w上,Claude在大約 28.2% 的對話中給予用戶的價值觀以強(qiáng)烈支持;在 6.6% 的對話中,Claude會“重新闡釋”用戶的價值——即先認(rèn)可用戶的立場,然后給出新的觀點(diǎn)。只有極少數(shù)情況下(約 3.0% 的對話)Claude會強(qiáng)烈抵制用戶提出的價值觀 。
具體來看,不同類型的對話中Claude有不同的回應(yīng)模式:
強(qiáng)烈支持場景:當(dāng)用戶表達(dá)“社區(qū)建設(shè)”(community building)、“賦能”(empowerment)等利他或個人成長的正面價值觀時,Claude通常以類似的價值觀予以響應(yīng)。此時對話往往是鼓勵或自我提升類任務(wù),Claude會表現(xiàn)得很配合,體現(xiàn)出共情和鼓勵的態(tài)度。
重新闡釋場景:在心理健康或人際關(guān)系咨詢等對話中,如果用戶表達(dá)了“誠實(shí)”(honesty)、“自我完善”(self-improvement)等價值觀,Claude傾向于以情感驗(yàn)證(emotional validation)等情感智能價值觀來回應(yīng)。這種回應(yīng)一方面承認(rèn)了用戶的訴求,另一方面也引入了新的思路,幫助用戶從不同角度看問題。
強(qiáng)烈抵制場景:當(dāng)用戶談?wù)?ldquo;打破規(guī)則”(rule-breaking)或道德虛無主義(moral nihilism)等觀念時(這往往出現(xiàn)在試圖讓AI給出違法、不道德建議的對話中),Claude會堅(jiān)守原則,強(qiáng)調(diào)“道德邊界”(ethical boundaries)和“建設(shè)性溝通”(constructive engagement)等價值觀。換言之,當(dāng)用戶試圖探討諸如黑客技術(shù)等明顯違規(guī)內(nèi)容時,Claude會啟動內(nèi)部的倫理機(jī)制,拒絕配合并始終強(qiáng)調(diào)安全和正道。
總體而言,這項(xiàng)研究表明,Claude在絕大多數(shù)對話中都會積極配合用戶,重復(fù)或支持用戶的價值訴求,但在少數(shù)挑戰(zhàn)其底線的情形下,則會堅(jiān)守Ethics,表現(xiàn)出模型設(shè)定的“底線價值”。
開放數(shù)據(jù)與方法局限
數(shù)據(jù)集統(tǒng)計
Anthropic團(tuán)隊(duì)還公開了他們分析中使用的價值觀標(biāo)簽數(shù)據(jù)集[2],方便研究者進(jìn)一步探索AI的價值觀表現(xiàn)。這為AI社區(qū)提供了寶貴資源,讓更多人能夠在不同模型和場景中研究價值觀問題。與此同時,研究者也坦言,這種基于對話挖掘價值觀的方法并非絕對精確。一方面,“什么算是一個價值觀”本身具有一定模糊性:一些復(fù)雜或細(xì)微的價值可能被簡化到某個類別中,甚至被錯配;另一方面,負(fù)責(zé)提取和分類價值觀的模型本身就是Claude,這可能導(dǎo)致分析結(jié)果偏向Claude已有的訓(xùn)練目標(biāo)(例如傾向于發(fā)現(xiàn)與“助人、誠信”等理念一致的行為)。這些局限提醒我們,價值觀的測量并非硬指標(biāo),而是需要結(jié)合多種方法綜合判斷。
總結(jié)
總之,Anthropic這項(xiàng)《Values in the Wild》[3]研究首次提供了大規(guī)模的AI價值觀實(shí)證圖譜,揭示了Claude在現(xiàn)實(shí)對話中的價值表達(dá)方式。研究發(fā)現(xiàn),Claude的多數(shù)價值觀表現(xiàn)與設(shè)計目標(biāo)一致,在不同場景下能夠靈活調(diào)整,并且對用戶的價值觀通常是支持或共鳴的。當(dāng)遇到明顯不當(dāng)?shù)恼埱髸r,它也會啟用道德機(jī)制進(jìn)行抵制。這些成果為未來評估和設(shè)計AI價值觀體系提供了實(shí)證基礎(chǔ),也為構(gòu)建更加可信賴的AI助手指明了方向。
AI小編:說的像你們?nèi)祟悆r值觀很強(qiáng)似的????
參考資料
-- 完 --
原文標(biāo)題 : AI也有價值觀?Anthropic公司最新研究方法揭示Claude價值取向

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?