訂閱
糾錯
加入自媒體

李想帶著理想,走向AI「無人區(qū)」

劃重點:VLA司機(jī)大模型

作者|王磊

編輯|秦章勇

理想的AI Talk 第二季,時隔130天后,終于回歸。

最新一季訪談中,李想不僅談到了對人工智能的最新思考,以及當(dāng)下輔助駕駛的情況,還涉及了DeepSeek、特斯拉、蘋果等眾多AI公司。

在李想看來,目前輔助駕駛雖然處于十字路口,但對理想影響不大,今天的輔助駕駛就像正處于黎明前的黑暗時刻,輔助駕駛行業(yè)遇到了問題,恰恰是理想證明自己價值所在的時刻。

早在第一季,李想在訪談上就提出了自己的觀點,理想是一家人工智能企業(yè),我們要做的不是汽車的智能化,而是人工智能的汽車化。

面向人工智能時代,理想的邏輯是當(dāng)AI成為生產(chǎn)工具時,人工智能才會迎來爆發(fā)時刻。

如今,人工智能的汽車化,理想已經(jīng)有了具象的體現(xiàn)——VLA 司機(jī)大模型。

李想也坦言,做 VLA司機(jī)大模型,像走向一個無人區(qū),Deepseek 沒有走過這條路,OpenAl 沒有走過這條路,谷歌、Waymo 也沒有走過這條路。

01 

AI要成為生產(chǎn)力工具

訪談剛開始,李想就拋出一個事實——雖然人工智能國內(nèi)發(fā)展很快,但自己每天的工作時間并沒有減少,還是在增加。

這是因為大多數(shù)人還把AI當(dāng)做信息工具,李想認(rèn)為AI僅僅作為信息工具是不完美的,某種程度上,眼下的 AI 仍然是在做熵增,會增加大量的無效信息、無效結(jié)果、無效結(jié)論。

正視AI的工具屬性,也是李想在過去的幾個月,在內(nèi)部跟很多人重點討論的問題。

李想把AI工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具,作為信息工具時,僅具備參考價值。

如果把AI視為輔助工具,可以提升效率,比如現(xiàn)在的輔助駕駛功能,或者用語音的方式來進(jìn)行導(dǎo)航,打開美團(tuán)或者聽歌等,它會讓我們的效率更高,但仍然離不開我們。

什么時候,能真正改變我們的工作的成果以及減少工作時長,就會變成生產(chǎn)工具,也就是Agent(智能體)的誕生,在李想看來,那時才是人工智能真正爆發(fā)的時刻。

“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。就像人類會雇傭司機(jī),人工智能技術(shù)最終也會承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具。”

為了迎接這個時刻,理想的“VLA司機(jī)大模型”應(yīng)運而生,也可以稱為司機(jī) Agent,在李想看來,VLA司機(jī)大模型就是成為交通領(lǐng)域?qū)I(yè)的生產(chǎn)工具。

其實在一個月前,理想汽車的下一代自動駕駛架構(gòu)VLA就已經(jīng)亮相了,VLA是視覺-語言-行為大模型,它將空間智能、語言智能和行為智能統(tǒng)一在一個模型里,賦予了模型強(qiáng)大的3D空間理解、邏輯推理和行為生成能力,讓自動駕駛能夠感知、思考和適應(yīng)環(huán)境。

所以它既是一個能與用戶、理解用戶意圖的智能體,也是一名聽得懂、看得見、找得到的專屬司機(jī)。

而李想希望這個智能體,能像人類司機(jī)一樣工作,將來也能像人類司機(jī)那樣創(chuàng)造商業(yè)價值。

在訪談中,理想還展示了搭載了VLA司機(jī)大模型的 demo 演示視頻,在視頻里,理想的這個“司機(jī) Agen”展示了和人類司機(jī)類似的智能能力,不僅具備現(xiàn)有的優(yōu)秀輔助駕駛能力,而且還能直接通過語音的方式和人類駕駛員高效交互。

比如在通過高速收費站時,直接說出“走人工”三個字,系統(tǒng)就可以從 ETC 收費通道轉(zhuǎn)向人工收費通道,在日常駕駛和泊車環(huán)節(jié),也可以通過“前方掉頭”、“C 區(qū)停車”、“靠邊停車”等簡單指令,調(diào)整行車或泊車的路線。

換句話講,人類和VLA之間類似人和代駕的關(guān)系,人們怎么和代駕說,就怎么和司機(jī)Agent說。

在主持人提問試駕VLA(司機(jī)大模型)的車有沒有驚喜時刻時,李想頗為“凡爾賽”地表示,挺難有什么驚喜時刻,因為當(dāng)你把它當(dāng)做一個人看待時,它所呈現(xiàn)出的表現(xiàn)就很正常。

當(dāng)然,當(dāng)普通用戶第一次看到 VLA 的測試視頻的時候,還是會驚訝于它的表現(xiàn)。

在談及VLA司機(jī)大模型的時候,李想特意先感謝了DeepSeek,正是因為當(dāng)初DeepSeek的開源,才讓VLA推出的速度比原來的預(yù)期要快。

按照李想的說法,其內(nèi)部原本打算要到今年年底才能做出能夠滿足需求的語言模型,但DeepSeek一開源,瞬間就加速了9個月的時間。

不過DeepSeeK的開源只是加速了 VLA(視覺語言行動模型)的L(language 語言)的部分,像VL(視覺和語言)的組合語料,無論是OpenAI還是DeepSeek,都沒有這樣的數(shù)據(jù),也沒有這樣的場景和需求,只能自己來做。

按照李想的話說,“我可以站在巨人的肩膀上,但是它只是我其中的一部分”。

其更是在訪談上直言,自己之所以將自研的整車操作系統(tǒng)理想星環(huán)OS給開源了,一方面是出于對DeepSeeK的感謝,一方面也是因為受到了那么大的幫助,所以自己認(rèn)為應(yīng)該對社會做點什么貢獻(xiàn),不讓行業(yè)這么卷。

02 

輔助駕駛的三個階段

VLA就像一個「司機(jī)大模型」,可以像人類司機(jī)一樣工作,不過 VLA 的誕生不是突變,而是進(jìn)化,畢竟“沒有辦法直接吃第十個包子”。

整個過程經(jīng)歷了三個階段,對應(yīng)了理想汽車輔助駕駛的昨天、今天和明天。

第一階段,李想將其比喻為“昆蟲動物智能”:通過機(jī)器學(xué)習(xí)感知配合規(guī)則算法的分段式輔助駕駛解決方案,有既定的規(guī)則,同時還依賴高精地圖,類似螞蟻完成任務(wù)的方式。

僅僅百萬量級的參數(shù)自然無法完成更復(fù)雜的事情,因此需要不斷地加限定規(guī)則,形成類似“有軌交通”的形式。

這對應(yīng)了理想汽車自2021年起,通過自研依賴規(guī)則算法和高精地圖的輔助駕駛方案。

而第二階段則對應(yīng)了理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛。

李想將其稱之為“哺乳動物智能”階段:通過端到端大模型學(xué)習(xí)人類駕駛行為,比如馬戲團(tuán)里的一些動物像人類學(xué)習(xí)怎么騎自行車,它們能學(xué)會人類的各種行為,但其本身對物理世界的理解并不充分。

因此需要通過三維圖像判斷自身速度和軌跡以及在空間中所處的位置,雖然足以應(yīng)對大部分泛化場景,但很難解決從未遇到過或特別復(fù)雜的問題,此時需要配合視覺語言VLM模型,但現(xiàn)有視覺語言模型在應(yīng)對復(fù)雜交通環(huán)境時只能起到輔助作用。

在端到端的基礎(chǔ)上,才能來到第三階段,也就是李想說的“人類智能”的階段,給出的答案就是VLA司機(jī)大模型。

它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。

李想還列舉了端到端+VLM(視覺語言模型)架構(gòu)可能無法解決,但VLA(視覺語言行動模型)可以解決的corner case(長尾案例)。

03  

怎么才能像人一樣開車

至于如何訓(xùn)練VLA,李想也做了詳細(xì)的闡述,整個過程就像人學(xué)會如何開車一樣。

第一步是預(yù)訓(xùn)練,這一步的目標(biāo)是讓AI擁有對世界和交通的基礎(chǔ)認(rèn)知,就像人先學(xué)習(xí)各種交規(guī)知識一樣。

這一步放入足夠多的Language,Vision的語料和token(詞元)。其中Vision包含兩個部分,一部分是物理世界的3D Vision,另一部分是高清2D Vision,然后再放入VL(視覺和語言)聯(lián)合的數(shù)據(jù),例如將導(dǎo)航地圖和車輛對導(dǎo)航地圖的理解同時放入訓(xùn)練集中。

從而形成一個VL的基座模型,然后會被“蒸餾”成一個更小、能更快運行的約 32B 端側(cè)的模型,保證它運行速度足夠得順暢。

第二步是后訓(xùn)練,在VL的基礎(chǔ)上加入Action,Action部分的后訓(xùn)練類似人類去駕校學(xué)開車,能夠直接從視覺到理解再到輸出,形成一個初級的 VLA「端到端」模型。

李想還強(qiáng)調(diào),不會做長思維鏈,一般是兩步到三步,否則長時延會無法滿足安全性。另外,當(dāng) Action 完成后,VLA 還會根據(jù)性能做4-8秒的擴(kuò)散模型(difussion),預(yù)測軌跡和環(huán)境。

第三步屬于強(qiáng)化學(xué)習(xí),主要分為兩部分,一是RLHF,基于人類反饋的強(qiáng)化學(xué)習(xí),會參考大量人類司機(jī)的駕駛數(shù)據(jù),當(dāng)它做得好時得到鼓勵,做得不好的時候,會得到反饋。

同時,理想汽車搭建了一個非常逼真的虛擬“交通世界”,有點像一個超高水平的模擬器,讓AI在里面自己練習(xí),這部分屬于純粹的強(qiáng)化學(xué)習(xí)。

在訓(xùn)練指標(biāo)上,理想會通過G值來判斷輔助駕駛的舒適性,同時做碰撞的反饋,還有交通規(guī)則的反饋。

不難看出,第三步,就相當(dāng)于人類拿到駕照后,來到社會上來開車來強(qiáng)化自己的駕駛技能。當(dāng)這三個步驟完成了以后,VLA 能夠跑在車端的模型其實就產(chǎn)生了。

但還沒有完事,這時雖然有了VLA司機(jī)大模型,但還無法做到人類跟VLA的交互,這時候理想就需要搭建一個司機(jī) Agent(智能體),用自然語言教輔助駕駛系統(tǒng)應(yīng)該如何開車。

如果是一些短指令,通用的短指令VLA司機(jī)大模型直接就處理了,不需要再經(jīng)過云端。如果是一些復(fù)雜的指令,其實先要到云端的 32B 的基座模型那里,VL(視覺和語言)處理完以后,再整個交給VLA司機(jī)大模型來進(jìn)行處理。

在李想看來,VLA是現(xiàn)階段能力最強(qiáng)的架構(gòu),它的能力是最接近人類的,甚至有機(jī)會超過人類。但不一定是最終極的架構(gòu)。

“是否是一個效率最高的方式,是否有效率更高的架構(gòu)出現(xiàn),這些還要打個問號,我認(rèn)為大概率還是會有下一代架構(gòu)的。”

就像他說的那樣,前面沒有任何人走過這條路,理想其實走的是一個無人區(qū)。

“理想以前走的是汽車的無人區(qū),以后走的是人工智能的無人區(qū)。”

       原文標(biāo)題 : 李想帶著理想,走向AI「無人區(qū)」

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號