123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹：向量數(shù)據(jù)庫破研發(fā)瓶頸，AI賦能范本轉(zhuǎn)移｜2025極新AIGC峰會演講實錄

2026-01-07 13:48

2025年12月26日，【想象·2025極新AIGC峰會】在上海浦東浦軟大廈成功召開。Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹先生在會上做了題為《向量數(shù)據(jù)庫對研發(fā)范本轉(zhuǎn)移的影響》的演講，從非結(jié)構(gòu)化數(shù)據(jù)特點、大模型幻覺解決到向量技術(shù)應(yīng)用場景，深入解析了向量數(shù)據(jù)庫如何重構(gòu)AI研發(fā)的底層邏輯。

Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹

喬丹重點提到以下幾點：

“AI業(yè)務(wù)中，非結(jié)構(gòu)化數(shù)據(jù)向量化，是目前最為常見且成熟的數(shù)據(jù)處理手段之一。”

“幻覺有多種表現(xiàn)形式，如在日常生活中我們能直觀感知到的，就是AI產(chǎn)出了錯誤的答案。”

“萬物皆可向量化，”

以下為喬丹演講原文，經(jīng)極新整理，希望能給大家?guī)硎斋@。

01數(shù)據(jù)治理挑戰(zhàn)

“非結(jié)構(gòu)化數(shù)據(jù)其實都是可以通過向量來進(jìn)行表征的”

首先我們?nèi)绻o它一個簡單的定義，除了傳統(tǒng)標(biāo)量形式（比如一個字段一串字符）之外，視頻、音頻、圖片這類數(shù)據(jù)，我們定義為非結(jié)構(gòu)化數(shù)據(jù)，而這些非結(jié)構(gòu)化數(shù)據(jù)其實都可以通過向量來進(jìn)行表征。

我們試想，每天接收的各種信息中，除了文字?jǐn)?shù)據(jù)，很多都是通過視頻、音頻等形式獲取的。其實非結(jié)構(gòu)化數(shù)據(jù)在我們生活中的占比遠(yuǎn)比各位想象的要高，這張餅狀圖可以很好地揭示了我們?nèi)粘Ｐ畔⑹占械男畔⒄急�，非結(jié)構(gòu)化數(shù)據(jù)顯然處在相對主導(dǎo)的位置。當(dāng)然在計算機(jī)領(lǐng)域，或者在數(shù)據(jù)治理領(lǐng)域，非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用其實還處于方興未艾的早期狀態(tài)。

我們的使命就是專注于解決非結(jié)構(gòu)化數(shù)據(jù)相關(guān)的問題。這里我們做一個簡單的數(shù)學(xué)理解，結(jié)合最早的解析幾何知識，我們可以把生活中很多事物標(biāo)定為二維、三維乃至無數(shù)維坐標(biāo)系中的一個點。

現(xiàn)在以三維為例，比如有兩個單詞，“面包” 和“bread”。“面包”可在向量空間中用一組特征向量（如xyz123）表征，而在傳統(tǒng)關(guān)鍵詞搜索中，很難直接將“面包”與“bread”匹配——傳統(tǒng)搜索僅能匹配“面”“包”這類字面重合的關(guān)鍵詞，無法感知二者的語義關(guān)聯(lián)。但如果把它們映射到幾何框架中，“面包”是 123，“bread”是124，在向量空間中，我們可以計算它們之間的相對幾何關(guān)系和距離，進(jìn)而得到二者的相關(guān)性。

這就是為什么我們可以用一種簡單的幾何方法，將以前無法匹配和關(guān)聯(lián)的非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)起來。當(dāng)然這只是一個簡單例證，如果我們能把這些維度進(jìn)行百倍、千倍甚至萬倍的拓展，一串幾何字符所能囊括的信息會遠(yuǎn)超我們的想象。

02模型可靠性危機(jī)

“幻覺有多種表現(xiàn)形式，在日常生活中我們能直觀感知到的，就是它產(chǎn)出了錯誤的答案”

某知名廠商的大模型，之前的能力可以通過一個問題來驗證：單詞school books有幾個o？這是個很簡單的問題，但之前一些版本的大模型給出的回答是有兩個，這顯然和人眼觀察的實際情況不符，正確答案應(yīng)該是有4個o。

這種情況不只是國內(nèi)存在，海外也一樣。還會自作聰明地補(bǔ)充了這些字母分別出現(xiàn)在哪些位置，但它給出的位置也是錯誤的佐證。

不過如果追加提問進(jìn)行糾正，模型有時候是能夠反省的。在糾正之下，模型會再進(jìn)行一次計算，最終得出正確的答案。

這種現(xiàn)象叫什么？有個很專業(yè)的名詞，叫Hallucination，也就是幻覺。這其實是個非常哲學(xué)化的概念，當(dāng)我們把大模型當(dāng)作一個交流對象時，它給出的那些并非是基于事實的回答，而是幻覺。

幻覺可以有很多種表現(xiàn)形式，但在日常生活中我們能直觀感知到的，就是它產(chǎn)出了錯誤的答案。這些其實都是很小的問題，但試想如果使用者是一名學(xué)者，正在進(jìn)行嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)研究，2023年我們用舊版本模型做了一次簡單測試，沒有任何上下文，直接提問：上海市 GDP 排名前三的是哪個區(qū)？模型給出的答案是浦東新區(qū)、武漢新區(qū)、楊浦區(qū)。先不管浦東新區(qū)和楊浦區(qū)是不是前三，我們能確定的是，武漢新區(qū)根本不屬于上海，這顯然也是出現(xiàn)了幻覺。

但此時我們該如何克服這種現(xiàn)象？其實這就涉及到技術(shù)領(lǐng)域老生常談的方法“檢索增強(qiáng)生成”，也就是我們俗稱的 RAG。簡而言之，我們會在操作中針對性彌補(bǔ)這一弊端，方法很簡單：在提出問題的同時，人為插入一個知識庫，為大模型提供對應(yīng)數(shù)據(jù)（比如上海下屬各區(qū)的實際 GDP 數(shù)據(jù)），隨之而來大模型給出的回答就是正確的。這就是一個非常簡單的RAG雛形，能幫助大家在使用大模型處理文檔或生活中的問題時，既利用它的優(yōu)勢，又避免它對真實信息的干擾。

但同時，有些場景下并不會這么順利，因為我們可能沒有現(xiàn)成的知識庫，這時候該怎么做？答案也很簡單：需要在給大模型的提示詞（prompt）中加上“如果沒有答案就不要瞎編”的要求。當(dāng)大模型接收到這個信息后，比如面對“上海市 GDP 排名第三的區(qū)是哪個”這類問題，若現(xiàn)有知識庫信息無法判斷，它就會如實回應(yīng)，還會給出一些相關(guān)性解釋，總而言之，它最終不會給出誤導(dǎo)性的結(jié)論式表達(dá)，避免對實際生活中的操作產(chǎn)生重大偏差影響。

如果不想糾結(jié)復(fù)雜的 IT 概念，可以簡單理解：當(dāng)我們把這類優(yōu)化措施封裝在后臺，以及封裝在用戶端或業(yè)務(wù)端的各個交互環(huán)節(jié)時，就產(chǎn)生了各種各樣的 RAG 演化和變種，這也是我們現(xiàn)在強(qiáng)調(diào)的 AI 在終端或業(yè)務(wù)端創(chuàng)新的重要方面。

03技術(shù)應(yīng)用瓶頸

“萬物皆可向量化”

2022 年的時候，還有很多人把大量的經(jīng)濟(jì)成本以及團(tuán)隊精力投入到發(fā)掘創(chuàng)意上面，但顯然模型的增長能力對我們而言是比較有挑戰(zhàn)性的。而 RAG 能讓我們以一種相對輕度、便捷的方式，解決很多切實的業(yè)務(wù)問題。

那么在這個環(huán)境中，向量數(shù)據(jù)庫起到什么作用？可以理解為，在與大模型的溝通當(dāng)中，所有語言內(nèi)容的底層其實都不是一串規(guī)則化的標(biāo)量，而是語義化的向量，語義即向量。所以當(dāng)你要大規(guī)模地為大模型插入知識庫時，其底層依托的其實就是向量數(shù)據(jù)庫。

由此我們可以產(chǎn)生一個應(yīng)用場景遷移的思考：向量數(shù)據(jù)庫會在哪些方面起到作用？橫向上，在搜索、推薦系統(tǒng)、大模型、風(fēng)控等場景都能發(fā)揮作用，橫軸可以無限延伸；縱向上則對應(yīng)非結(jié)構(gòu)化數(shù)據(jù)類型，這類數(shù)據(jù)其實都可以被向量化。兩者交叉會產(chǎn)生無數(shù)的應(yīng)用場景賦能。

這些能力其實都是日�？梢杂玫降�。比如大家在A電商平臺進(jìn)行購物，你覺得某樣?xùn)|西特別貴，去 B 電商平臺拍張照搜索，會發(fā)現(xiàn)同款商品價格比其他地方便宜90%。這是怎么實現(xiàn)的？其實就是把兩張圖片的向量特征提取出來，再進(jìn)行比對，計算它們在坐標(biāo)系里的某種算法下的最合適的近鄰關(guān)系，我們就找到了最具性價比的商品。

這是商業(yè)場景的應(yīng)用，剛才也提到了分子藥研發(fā)，我們可以把分子結(jié)構(gòu)進(jìn)行向量化。我們服務(wù)的客戶里也有材料類型的企業(yè)，甚至在自動駕駛領(lǐng)域，隨著越來越多的多模態(tài)方案出現(xiàn)，相關(guān)技術(shù)如何辨別不同數(shù)據(jù)之間的差異，都可以借助向量數(shù)據(jù)庫來實現(xiàn)。

原文標(biāo)題 : Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹：向量數(shù)據(jù)庫破研發(fā)瓶頸，AI賦能范本轉(zhuǎn)移｜2025極新AIGC峰會演講實錄

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機(jī)器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网