訂閱
糾錯(cuò)
加入自媒體

信任下滑!Salesforce因大模型 “幻覺(jué)”問(wèn)題,已縮減使用 | T Insights

大模型多重缺陷暴露。

過(guò)去一年,Salesforce首席執(zhí)行官馬克·貝尼奧夫(Marc Benioff)一直大力推廣公司的核心AI產(chǎn)品Agentforce,宣稱它能幫企業(yè)借助大型語(yǔ)言模型(LLM)實(shí)現(xiàn)工作自動(dòng)化,從而節(jié)省開(kāi)支。

然而最近,Salesforce高管卻向客戶傳遞了截然不同的信息:Agentforce在不那么依賴LLM(即生成式AI技術(shù))時(shí),有時(shí)表現(xiàn)會(huì)更好。

產(chǎn)品營(yíng)銷(xiāo)高級(jí)副總裁Sanjna Parulekar表示,Salesforce已在Agentforce中采用了基礎(chǔ)的“確定性”自動(dòng)化形式,以提升軟件的可靠性。這意味著它會(huì)根據(jù)預(yù)設(shè)指令做出決策,而非像AI模型那樣依賴推理和解讀。

從力捧到克制,LLM暴露多重痛點(diǎn)

“一年前,我們大家對(duì)LLM的信任度都更高,”她說(shuō)。

該公司官網(wǎng)目前寫(xiě)道,Agentforce能夠幫助消除LLM固有的隨機(jī)性,確保關(guān)鍵業(yè)務(wù)流程每次都嚴(yán)格遵循相同步驟。

盡管這一調(diào)整避免了聊天機(jī)器人等AI產(chǎn)品出現(xiàn)行為失控的情況,但也導(dǎo)致它們有時(shí)無(wú)法理解客戶問(wèn)題背后的語(yǔ)境與深層訴求,或像ChatGPT那樣對(duì)復(fù)雜問(wèn)題給出全面答案。

作為最具價(jià)值的軟件公司之一,Salesforce對(duì)LLM的部分回調(diào)可能會(huì)影響數(shù)千家使用該技術(shù)的企業(yè)。

源自O(shè)penAI、Anthropic等AI提供商的LLM,能實(shí)現(xiàn)多場(chǎng)景自動(dòng)化 —— 覆蓋軟件工程、數(shù)據(jù)分析、金融,再到營(yíng)銷(xiāo)、銷(xiāo)售、客戶服務(wù)等領(lǐng)域。

雖然許多大型企業(yè)已發(fā)現(xiàn)LLM的實(shí)用價(jià)值,但要將其轉(zhuǎn)化為能處理多步驟任務(wù)的可靠AI代理,它們?nèi)悦媾R諸多技術(shù)、財(cái)務(wù)和組織層面的挑戰(zhàn)。

大型語(yǔ)言模型(LLM)的工作機(jī)制與現(xiàn)存缺陷(圖片來(lái)源:YouTube@AndrejKarpathy)

一些企業(yè)發(fā)現(xiàn),很難阻止LLM在回答中出現(xiàn)不當(dāng)行為或做出錯(cuò)誤猜測(cè)。

這對(duì)于需要精準(zhǔn)處理的任務(wù)來(lái)說(shuō)是個(gè)大問(wèn)題,比如庫(kù)存跟蹤或客戶退款申請(qǐng)?zhí)幚,否則可能導(dǎo)致糟糕的商業(yè)決策,引發(fā)員工或客戶不滿。

Salesforce在AI營(yíng)銷(xiāo)方式上經(jīng)歷了重大轉(zhuǎn)變——貝尼奧夫曾稱該產(chǎn)品的部署易如反掌。

例如,今年部分Agentforce客戶遭遇了被稱為“幻覺(jué)”的技術(shù)故障,不過(guò)公司表示產(chǎn)品正在快速優(yōu)化完善。

作為少數(shù)披露AI專項(xiàng)收入的大公司之一,Salesforce稱Agentforce目前的年度收入有望突破5億美元。

確定性觸發(fā)機(jī)制

許多客戶需要AI提供商提供大量指導(dǎo)才能讓技術(shù)正常運(yùn)行,部分客戶還對(duì)其運(yùn)行成本頗有怨言。

Agentforce代理每處理一次對(duì)話收費(fèi)2美元,此外公司還推出了預(yù)購(gòu)積分、按實(shí)際使用量結(jié)算的付費(fèi)方案。

Agentforce首席技術(shù)官M(fèi)uralidhar Krishnaprasad表示,采用更基礎(chǔ)的自動(dòng)化形式(比如為計(jì)算機(jī)編寫(xiě)確定性指令,俗稱“如果A則B”的邏輯語(yǔ)句),降低了Agentforce的運(yùn)營(yíng)成本,也降低了客戶使用成本。

Agentforce的使用界面(圖片來(lái)源:Salesforce官網(wǎng))

“如果給LLM下達(dá)超過(guò)8條左右的指令,它就可能開(kāi)始遺漏指令,這可不是什么好事,”他說(shuō)。

“有些環(huán)節(jié)需要絕對(duì)的確定性,我們沒(méi)必要為此浪費(fèi)令牌……這不僅能節(jié)省LLM的使用成本,更重要的是能確保用戶得到準(zhǔn)確答案。”

家庭安防公司Vivint的工程高級(jí)副總裁瑞安·吉表示,該公司此前嘗試自行開(kāi)發(fā)AI聊天機(jī)器人未果,于去年開(kāi)始使用Agentforce為250萬(wàn)客戶提供客服支持。

Vivint在使用Agentforce初期遇到了一些問(wèn)題,產(chǎn)品并非100%可靠。

例如,Vivint曾要求Agentforce在每次客戶互動(dòng)結(jié)束后發(fā)送滿意度調(diào)查,但有時(shí)AI會(huì)無(wú)故不發(fā)送調(diào)查,具體原因始終不明。

他說(shuō),Vivint與Salesforce合作,在Agentforce中設(shè)置了“確定性觸發(fā)機(jī)制”,確保每次都能發(fā)出調(diào)查。

Salesforce另一高管菲爾·梅在10月的一篇博客中表示,公司已開(kāi)發(fā)出Agentforce Script系統(tǒng),通過(guò)識(shí)別哪些任務(wù)或任務(wù)環(huán)節(jié)可由不使用LLM的“代理”處理,來(lái)最大限度降低LLM的“不可預(yù)測(cè)性”。

Agentforce Script關(guān)鍵功能(圖片來(lái)源:YouTube@SalesforceDevs)

梅指出,Salesforce最資深客戶正受AI“偏移”問(wèn)題困擾——當(dāng)用戶提出無(wú)關(guān)問(wèn)題時(shí),代理會(huì)偏離預(yù)設(shè)目標(biāo)。

比如,原本用于引導(dǎo)客戶填寫(xiě)表單的AI聊天機(jī)器人,在客戶詢問(wèn)與表單無(wú)關(guān)的問(wèn)題時(shí)就會(huì)“分心”。

目前,Agentforce Script仍處于測(cè)試階段。

LLM縮減背后,是優(yōu)化還是妥協(xié)?

Salesforce在營(yíng)銷(xiāo)Agentforce時(shí),著重強(qiáng)調(diào)了該產(chǎn)品如何改變了公司自身的運(yùn)營(yíng)。

例如,貝尼奧夫曾表示,部分依賴OpenAI LLM的Agentforce如今已承接了Salesforce的大部分客戶服務(wù)咨詢,幫助公司裁減了約4000名客服崗位。

然而,近幾個(gè)月來(lái),Salesforce似乎減少了其Agentforce驅(qū)動(dòng)的客服代理對(duì)LLM的使用。

比如上周,該公司在回應(yīng)一項(xiàng)關(guān)于Agentforce技術(shù)問(wèn)題的求助時(shí),僅提供了一系列博客文章鏈接,而非詢問(wèn)更多信息或就可能的問(wèn)題進(jìn)行溝通。

且列表中的第一個(gè)博客鏈接涉及今年6月影響Agentforce及其他多款Salesforce產(chǎn)品的一次宕機(jī)事件,對(duì)當(dāng)前遇到問(wèn)題的客戶來(lái)說(shuō)幾乎沒(méi)有參考價(jià)值。

這樣的回應(yīng)與多年來(lái)企業(yè)使用基礎(chǔ)聊天機(jī)器人處理客戶或網(wǎng)站訪客咨詢的方式頗為相似。

Salesforce發(fā)言人否認(rèn)了公司為客服代理縮減LLM使用的說(shuō)法。

他表示,針對(duì)客服代理,公司今年“優(yōu)化了主題結(jié)構(gòu),加強(qiáng)了安全防護(hù)機(jī)制,提升了信息檢索質(zhì)量,并優(yōu)化了回應(yīng)邏輯,使其更具體、更貼合語(yǔ)境、更符合客戶實(shí)際需求。

我們現(xiàn)在還擁有了更完善的可觀測(cè)性和反饋循環(huán),能快速發(fā)現(xiàn)代理回應(yīng)過(guò)于寬泛、偏離主題或表述不清的地方,并迅速迭代改進(jìn)。

因此,從提供通用答案到給出結(jié)構(gòu)化、針對(duì)性回應(yīng)的轉(zhuǎn)變,完全是有意為之,也是優(yōu)化代理的必要過(guò)程。”

該發(fā)言人補(bǔ)充道,客服代理“解決的客戶問(wèn)題比以往任何時(shí)候都多”,預(yù)計(jì)在1月底結(jié)束的財(cái)年中,已解決的對(duì)話數(shù)量將增長(zhǎng)90%。

“我們?cè)诳头䦂?chǎng)景中使用LLM的方式和場(chǎng)景上變得更加審慎,”他說(shuō)。

對(duì)于其他AI提供商而言,LLM也被證明難以駕馭,它們常常偏離預(yù)設(shè)用途。例如,本月早些時(shí)候,由企業(yè)AI初創(chuàng)公司Sierra提供技術(shù)支持的蓋璞(Gap Inc.)聊天機(jī)器人,竟回答了有關(guān)情趣用品等敏感問(wèn)題。

Sierra表示,已修復(fù)蓋璞聊天機(jī)器人的配置漏洞,并指出有“惡意分子”蓄意濫用該聊天機(jī)器人。

編輯:楊鷺婕

參考來(lái)源:The Information

END

       原文標(biāo)題 : 信任下滑!Salesforce因大模型 “幻覺(jué)”問(wèn)題,已縮減使用 | T Insights

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)