侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

已有VLM,自動(dòng)駕駛為什么還要探索VLA?

自動(dòng)駕駛技術(shù)正處于發(fā)展的轉(zhuǎn)折點(diǎn)。過去十幾年間,行業(yè)長期依賴模塊化的技術(shù)路徑,即將駕駛?cè)蝿?wù)拆解為感知、預(yù)測(cè)、規(guī)劃和控制四個(gè)獨(dú)立環(huán)節(jié)。這種結(jié)構(gòu)雖然清晰,但在面對(duì)突發(fā)狀況時(shí)(長尾場(chǎng)景),會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。

隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識(shí)到,如果車輛能像人類一樣擁有常識(shí),理解什么是“潮汐車道”,知道“救護(hù)車在后方鳴笛需要避讓”,那么自動(dòng)駕駛的上限將得到極大提升。

然而,當(dāng)真正將視覺語言模型引入座艙和駕駛系統(tǒng)后,一個(gè)新的問題出現(xiàn)了,模型雖然能言善辯,能解釋復(fù)雜的路況,卻無法精準(zhǔn)地轉(zhuǎn)動(dòng)方向盤。這種從“腦子懂了”到“手腳協(xié)調(diào)”的跨越,正是視覺-語言-動(dòng)作模型(VLA)被推向臺(tái)前的主要原因。

視覺語言模型的語義底座與行動(dòng)短板

視覺語言模型(VLM)在自動(dòng)駕駛領(lǐng)域打破了感知的天花板。傳統(tǒng)的感知算法只能識(shí)別如汽車、行人或交通燈等預(yù)定義的標(biāo)簽,而對(duì)于路邊一個(gè)形態(tài)奇特的充氣廣告人,或者地面上一攤反光的水漬,傳統(tǒng)模型將無法給出合理的解釋。

視覺語言模型通過在互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,獲得了一種近乎于人類的常識(shí)推理能力。它不再僅將像素點(diǎn)分類,而是能夠理解場(chǎng)景中的深層邏輯。比如,它能識(shí)別出前方車輛開啟的雙閃燈意味著故障,并建議后車進(jìn)行繞行,這種基于語義的推理能力是傳統(tǒng)規(guī)則算法難以企及的。

雖然視覺語言模型在環(huán)境建模和交互決策建議方面表現(xiàn)優(yōu)異,但它在直接驅(qū)動(dòng)車輛運(yùn)行上依舊存在著先天不足,這主要體現(xiàn)在其輸出邏輯與物理世界控制指令之間的脫節(jié)上。目前的視覺語言模型大多是為文本生成而設(shè)計(jì)的,其輸出結(jié)果一般是自然語言,比如“我看到前方有行人,我應(yīng)該減速”。

然而,對(duì)于車輛底盤而言,它需要的是具體的制動(dòng)壓力、轉(zhuǎn)向扭矩或者是精確到分米的行駛軌跡點(diǎn)。這種從文本描述到物理操作的轉(zhuǎn)換過程,需要一個(gè)額外的翻譯模塊。這個(gè)模塊一旦出現(xiàn)理解偏差,或者因?yàn)槟P椭g無法進(jìn)行聯(lián)合優(yōu)化,就會(huì)導(dǎo)致信息在傳遞中丟失。這將造成了一個(gè)尷尬的現(xiàn)象,模型可能在語言層面正確識(shí)別了危險(xiǎn),但在實(shí)際操作中卻未能及時(shí)做出反應(yīng),這種現(xiàn)象被稱為行動(dòng)鴻溝。

此外,視覺語言模型的實(shí)時(shí)性也是一大硬傷。在高速行駛的自動(dòng)駕駛場(chǎng)景中,毫秒級(jí)的延遲就可能決定安全與否。主流的視覺語言模型通常擁有極大的參數(shù)量,在處理高分辨率圖像并生成連貫文本時(shí),其推理延遲將達(dá)到數(shù)百毫秒甚至秒級(jí),這遠(yuǎn)遠(yuǎn)無法滿足每秒需要進(jìn)行數(shù)十次計(jì)算的實(shí)時(shí)控制需求。

由于視覺語言模型架構(gòu)本身并不是為了輸出高頻、精確的控制信號(hào)而優(yōu)化的,因此在很長一段時(shí)間里,其只能作為一種慢思考的插件,掛載在現(xiàn)有的自動(dòng)駕駛系統(tǒng)旁提供參考,而無法真正主導(dǎo)駕駛過程。這種被動(dòng)性限制了它在復(fù)雜動(dòng)態(tài)環(huán)境下的應(yīng)用潛力,從而促使研究者們尋求一種能夠?qū)⒗斫馀c行動(dòng)深度耦合的新技術(shù)路徑。

視覺語言動(dòng)作模型的一體化升級(jí)

視覺-語言-動(dòng)作模型(VLA)的出現(xiàn),本質(zhì)上是將車輛的認(rèn)知系統(tǒng)與執(zhí)行系統(tǒng)進(jìn)行了一次徹底的物理融合。它不再把駕駛看作是先理解場(chǎng)景再執(zhí)行動(dòng)作的兩個(gè)獨(dú)立步驟,而是將其視為一個(gè)統(tǒng)一的、從傳感器輸入到執(zhí)行器輸出的端到端學(xué)習(xí)過程。

VLA框架示意圖,圖片源自:網(wǎng)絡(luò)

在這種技術(shù)框架下,視覺特征、語言指令和駕駛動(dòng)作被編碼到同一個(gè)高維特征空間中進(jìn)行交互。這意味著模型在學(xué)習(xí)如何識(shí)別紅綠燈的同時(shí),也在學(xué)習(xí)遇到紅燈時(shí)應(yīng)該如何調(diào)節(jié)剎車踏板。這種深度的耦合使得模型能夠從海量的數(shù)據(jù)中提取出超越簡(jiǎn)單規(guī)則的駕駛技巧,從而表現(xiàn)出更加類人的駕駛行為。

想實(shí)現(xiàn)這一融合,關(guān)鍵技術(shù)之一是動(dòng)作的標(biāo)記化處理。受谷歌機(jī)器人模型RT-2的啟發(fā),自動(dòng)駕駛領(lǐng)域的VLA模型嘗試將車輛的如轉(zhuǎn)向、加速、制動(dòng)等駕駛動(dòng)作轉(zhuǎn)化為一種特殊的詞匯表。在這種設(shè)定下,生成一段平滑的變道軌跡,在模型看來與寫出一個(gè)句子并無本質(zhì)區(qū)別。

通過將連續(xù)的物理空間離散化為一系列動(dòng)作標(biāo)記,VLA模型能夠直接利用大型語言模型的自回歸特性來預(yù)測(cè)接下來的駕駛行為。這種方法的精妙之處在于,它讓模型在做出動(dòng)作預(yù)測(cè)的同時(shí),還能附帶輸出這一動(dòng)作背后的邏輯理由,極大地提升了系統(tǒng)的可解釋性。舉個(gè)例子,當(dāng)車輛突然剎車時(shí),它不僅能執(zhí)行動(dòng)作,還能同步反饋是因?yàn)榭吹搅嗣^(qū)內(nèi)竄出的外賣車,這種透明度對(duì)于建立用戶對(duì)自動(dòng)駕駛的信任至關(guān)重要。

在VLA的驅(qū)動(dòng)下,自動(dòng)駕駛車輛表現(xiàn)出了前所未有的泛化能力。傳統(tǒng)的系統(tǒng)在進(jìn)入一個(gè)從未見過的陌生城市或遇到罕見的特殊路障時(shí),由于缺乏預(yù)設(shè)規(guī)則,會(huì)表現(xiàn)得不知所措甚至原地停滯。而VLA模型憑借其預(yù)訓(xùn)練階段習(xí)得的通用世界知識(shí),可以根據(jù)環(huán)境中的語義線索進(jìn)行即時(shí)推理。

例如,當(dāng)它在路邊看到一個(gè)寫著臨時(shí)施工的告示牌時(shí),即便系統(tǒng)沒有預(yù)裝該路段的地圖信息,它也能通過閱讀牌子上的文字并結(jié)合視覺觀察,自主規(guī)劃出一條繞行路徑。這種對(duì)未知環(huán)境的強(qiáng)適應(yīng)性,被視為從輔助駕駛向全自動(dòng)駕駛跨越的關(guān)鍵一步。

動(dòng)作標(biāo)記化與物理一致性的技術(shù)平衡

盡管將動(dòng)作轉(zhuǎn)化為語言標(biāo)記為模型的一體化掃清了障礙,但在自動(dòng)駕駛這種對(duì)精度要求極高的場(chǎng)景中,如何確保生成的標(biāo)記能夠轉(zhuǎn)化為平滑且符合車輛動(dòng)力學(xué)的軌跡,依然是一個(gè)巨大挑戰(zhàn)。

如果僅僅是簡(jiǎn)單地離散化,模型輸出的動(dòng)作可能會(huì)出現(xiàn)抖動(dòng),導(dǎo)致車輛行駛不順暢。為了解決這一問題,行業(yè)內(nèi)涌現(xiàn)出了多種軌跡生成的技術(shù)方案。其中一種典型做法是利用動(dòng)作碼本,將車輛可能行駛的二維空間劃分為精細(xì)的網(wǎng)格。

例如,在ReflectDrive等研究中,開發(fā)者將駕駛空間設(shè)定為以車輛為中心的一個(gè)矩形區(qū)域,并以固定分辨率進(jìn)行切分,從而生成數(shù)以百計(jì)的備選標(biāo)記。通過這種方式,模型輸出的每一個(gè)標(biāo)記都對(duì)應(yīng)著物理空間中一個(gè)真實(shí)的坐標(biāo)點(diǎn),從而保證了動(dòng)作生成的物理落地。

然而,離散標(biāo)記無法捕捉到復(fù)雜交通場(chǎng)景中的細(xì)微連續(xù)變化。因此,另一種更為先進(jìn)的技術(shù)是將擴(kuò)散模型引入VLA的動(dòng)作生成中。擴(kuò)散模型的強(qiáng)項(xiàng)在于它能夠通過迭代去噪的過程,從概率分布中提取出最符合當(dāng)前上下文的連續(xù)軌跡。

在這種架構(gòu)下,大型語言模型骨干負(fù)責(zé)定性,即決定車輛應(yīng)該左轉(zhuǎn)還是右轉(zhuǎn),而擴(kuò)散模型負(fù)責(zé)定量,即計(jì)算出具體的行駛路徑曲線。理想汽車在MindVLA架構(gòu)中就應(yīng)用了這種組合,其模型先生成語義層面的動(dòng)作標(biāo)記,再通過擴(kuò)散解碼器將其轉(zhuǎn)化為經(jīng)過優(yōu)化的軌跡,這使得車輛在擁堵路口博弈或狹窄車位泊車時(shí),能夠展現(xiàn)出極其絲滑的操作。

為了進(jìn)一步確保安全性,還有技術(shù)開發(fā)了針對(duì)動(dòng)作標(biāo)記的反射修正機(jī)制。在模型輸出初步的動(dòng)作序列后,系統(tǒng)會(huì)引入一個(gè)專門的安全評(píng)分模塊,利用車輛動(dòng)力學(xué)約束和障礙物預(yù)測(cè)信息對(duì)該序列進(jìn)行快速質(zhì)檢。

如果發(fā)現(xiàn)預(yù)測(cè)的軌跡點(diǎn)有碰撞風(fēng)險(xiǎn),模型會(huì)基于離散化的動(dòng)作碼本在局部范圍內(nèi)進(jìn)行高效搜索,尋找安全的替代錨點(diǎn),并要求擴(kuò)散模型以此為基準(zhǔn)重新生成周邊軌跡。這種循環(huán)往復(fù)的自我審視過程,模擬了人類駕駛員在做出決定后發(fā)現(xiàn)不妥并迅速修正的心理過程,極大增強(qiáng)了系統(tǒng)在極端情況下的生存能力。

認(rèn)知雙系統(tǒng)理論在量產(chǎn)中的實(shí)踐

在將龐大的VLA模型推向車載平臺(tái)的過程中,將面臨一個(gè)殘酷的現(xiàn)實(shí),那就是車載芯片的算力和功耗預(yù)算是極為有限的。盡管英偉達(dá)推出了Thor這樣算力高達(dá)2000 TOPS的芯片,但要流暢運(yùn)行一個(gè)擁有數(shù)十億參數(shù)且需要高頻響應(yīng)的VLA模型,依然捉襟見肘。

為了解決這個(gè)問題,業(yè)界引入了心理學(xué)中的認(rèn)知雙系統(tǒng)理論。這一理論認(rèn)為人類的大腦存在兩個(gè)系統(tǒng),系統(tǒng)1是快系統(tǒng),負(fù)責(zé)本能、直覺和下意識(shí)的快速反應(yīng);系統(tǒng)2是慢系統(tǒng),負(fù)責(zé)邏輯、分析和復(fù)雜的決策推理。在自動(dòng)駕駛的VLA架構(gòu)中,開發(fā)者們通過巧妙的設(shè)計(jì)重構(gòu)了這一模型。

具體的實(shí)現(xiàn)方式是構(gòu)建一個(gè)異構(gòu)的推理模型。系統(tǒng)2由完整的大語言模型組成,它像一個(gè)資深的教官,負(fù)責(zé)觀察全局路況、解析復(fù)雜的交通規(guī)則以及制定長期的駕駛策略。由于它非常重,通常以較低的頻率運(yùn)行(例如每秒運(yùn)行一兩次)。

而系統(tǒng)1則是一個(gè)輕量級(jí)的動(dòng)作執(zhí)行模塊,它實(shí)時(shí)接收系統(tǒng)2輸出的深層特征作為指導(dǎo),并結(jié)合最新的傳感器數(shù)據(jù),以極高的頻率(如100Hz)輸出具體的控制指令。這種快慢結(jié)合的模式,既保留了大模型的智慧,又確保了車輛在遭遇緊急切入或行人橫穿時(shí),能像人類本能一樣迅速制動(dòng),而不必等待大模型漫長的思考時(shí)間。

為了進(jìn)一步提升效率,混合專家架構(gòu)(MoE)被證明是VLA走向?qū)嵱玫睦。在MindVLA等先進(jìn)模型中,并非所有的神經(jīng)元在駕駛時(shí)都同時(shí)工作,而是將模型拆分為多個(gè)領(lǐng)域的專家模塊。比如有的專家擅長處理高速巡航,有的擅長處理雨天感知,有的則專精于狹窄路口的博弈。

在實(shí)際運(yùn)行時(shí),路由算法會(huì)根據(jù)當(dāng)前路況,動(dòng)態(tài)激活最相關(guān)的少數(shù)專家模塊。這種稀疏激活的技術(shù),使得模型在擁有巨大知識(shí)容量的同時(shí),實(shí)際計(jì)算消耗可以維持在較低水平。結(jié)合稀疏注意力機(jī)制和并行解碼技術(shù),目前的VLA模型已經(jīng)能夠?qū)崿F(xiàn)在車載端的毫秒級(jí)響應(yīng),這標(biāo)志著認(rèn)知驅(qū)動(dòng)的自動(dòng)駕駛正正式從學(xué)術(shù)研究轉(zhuǎn)向量產(chǎn)工程。

視覺語言動(dòng)作模型在真實(shí)世界的演進(jìn)邏輯

在實(shí)際部署中,VLA模型的訓(xùn)練數(shù)據(jù)不再局限于簡(jiǎn)單的駕駛視頻。為了讓模型真正理解語言與動(dòng)作之間的因果關(guān)系,研究者們開發(fā)了諸如Action Dreaming(動(dòng)作夢(mèng)境)這樣的創(chuàng)新方法。

在傳統(tǒng)的訓(xùn)練中,模型看到的是“司機(jī)看到紅燈于是停車”的單一結(jié)果。然而,為了讓模型理解指令的邊界,開發(fā)者會(huì)在模擬器中創(chuàng)造出各種虛假的未來。如對(duì)于同一個(gè)視覺場(chǎng)景,給模型輸入“直行”和“左轉(zhuǎn)”兩種指令,并讓它預(yù)測(cè)兩種不同的物理后果。通過這種反事實(shí)推理的訓(xùn)練,VLA模型能夠建立起深層的語言-動(dòng)作對(duì)齊,從而在現(xiàn)實(shí)中更準(zhǔn)確地執(zhí)行人類的自然語言指令。

這種對(duì)齊能力的提升,催生了一批具有代表性的工業(yè)界項(xiàng)目。Wayve推出的LINGO-2是首個(gè)在公共道路上測(cè)試的閉環(huán)VLA模型,它能夠邊開車邊解說,通過實(shí)時(shí)語音反饋其為何減速、為何繞行,從而讓車內(nèi)乘客能夠?qū)崟r(shí)洞察車輛的思維邏輯。

而理想汽車推出的MindVLA,則更進(jìn)一步地強(qiáng)調(diào)了空間智能的整合。通過自主研發(fā)的3D Gaussian(3D高斯)表征技術(shù),MindVLA能夠?qū)?fù)雜的城市街道轉(zhuǎn)化為一種可計(jì)算的、具備幾何精確度的三維語義空間。在這種空間內(nèi),動(dòng)作的生成不再是盲目的黑盒預(yù)測(cè),而是基于對(duì)障礙物物理邊界的深刻理解。這使得它即便在無圖的陌生車庫內(nèi),也能憑借純粹的視覺和語義推理,像老司機(jī)一樣找到車位并完成停放。

VLA模型在自動(dòng)駕駛領(lǐng)域的意義遠(yuǎn)不止于駕駛?cè)蝿?wù)本身。它實(shí)際上是在構(gòu)建一個(gè)通用的物理世界代理。隨著這一技術(shù)的日趨成熟,車輛將從一個(gè)單純的代步工具進(jìn)化為一個(gè)具備理解和執(zhí)行能力的智能體。

未來,用戶可能不再需要設(shè)置復(fù)雜的導(dǎo)航點(diǎn),只需隨口一句“去最近的超市買點(diǎn)面包”,VLA驅(qū)動(dòng)的車輛便能通過搜索興趣點(diǎn)、理解交通流、規(guī)劃路線、規(guī)避風(fēng)險(xiǎn),并最終準(zhǔn)確地停在超市門口。這種從規(guī)則驅(qū)動(dòng)到語義認(rèn)知,再到物理行動(dòng)的閉環(huán),不僅解決了自動(dòng)駕駛的長尾問題,更開啟了物理人工智能的新時(shí)代。

總結(jié)與未來展望

視覺語言動(dòng)作模型(VLA)在自動(dòng)駕駛中的崛起,標(biāo)志著人工智能從純粹的信息處理向物理實(shí)體交互的質(zhì)變。相比于視覺語言模型(VLM),VLA的核心價(jià)值在于它消除了語義理解與物理執(zhí)行之間的斷層,通過統(tǒng)一的端到端框架,實(shí)現(xiàn)了感知、決策與控制的深度集成。這一跨越使得自動(dòng)駕駛車輛能夠擺脫對(duì)高精地圖和繁瑣手工規(guī)則的依賴,轉(zhuǎn)而依靠通用的常識(shí)和實(shí)時(shí)推理來處理復(fù)雜多變的現(xiàn)實(shí)環(huán)境。

-- END --

       原文標(biāo)題 : 已有VLM,自動(dòng)駕駛為什么還要探索VLA?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)