123,123,123

<ul id="1jdfj"></ul>

<div id="1jdfj"><listing id="1jdfj"></listing></div>

當(dāng)前位置： OFweek 智能汽車網(wǎng) > 自動(dòng)駕駛 > 正文

已有VLM，自動(dòng)駕駛為什么還要探索VLA?

2026-02-03 10:25

智駕最前沿

自動(dòng)駕駛技術(shù)正處于發(fā)展的轉(zhuǎn)折點(diǎn)。過去十幾年間，行業(yè)長期依賴模塊化的技術(shù)路徑，即將駕駛?cè)蝿?wù)拆解為感知、預(yù)測(cè)、規(guī)劃和控制四個(gè)獨(dú)立環(huán)節(jié)。這種結(jié)構(gòu)雖然清晰，但在面對(duì)突發(fā)狀況時(shí)（長尾場(chǎng)景），會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。

隨著大語言模型和視覺語言模型（VLM）的爆發(fā)，開發(fā)者們意識(shí)到，如果車輛能像人類一樣擁有常識(shí)，理解什么是“潮汐車道”，知道“救護(hù)車在后方鳴笛需要避讓”，那么自動(dòng)駕駛的上限將得到極大提升。

然而，當(dāng)真正將視覺語言模型引入座艙和駕駛系統(tǒng)后，一個(gè)新的問題出現(xiàn)了，模型雖然能言善辯，能解釋復(fù)雜的路況，卻無法精準(zhǔn)地轉(zhuǎn)動(dòng)方向盤。這種從“腦子懂了”到“手腳協(xié)調(diào)”的跨越，正是視覺-語言-動(dòng)作模型（VLA）被推向臺(tái)前的主要原因。

視覺語言模型的語義底座與行動(dòng)短板

視覺語言模型（VLM）在自動(dòng)駕駛領(lǐng)域打破了感知的天花板。傳統(tǒng)的感知算法只能識(shí)別如汽車、行人或交通燈等預(yù)定義的標(biāo)簽，而對(duì)于路邊一個(gè)形態(tài)奇特的充氣廣告人，或者地面上一攤反光的水漬，傳統(tǒng)模型將無法給出合理的解釋。

視覺語言模型通過在互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，獲得了一種近乎于人類的常識(shí)推理能力。它不再僅將像素點(diǎn)分類，而是能夠理解場(chǎng)景中的深層邏輯。比如，它能識(shí)別出前方車輛開啟的雙閃燈意味著故障，并建議后車進(jìn)行繞行，這種基于語義的推理能力是傳統(tǒng)規(guī)則算法難以企及的。

雖然視覺語言模型在環(huán)境建模和交互決策建議方面表現(xiàn)優(yōu)異，但它在直接驅(qū)動(dòng)車輛運(yùn)行上依舊存在著先天不足，這主要體現(xiàn)在其輸出邏輯與物理世界控制指令之間的脫節(jié)上。目前的視覺語言模型大多是為文本生成而設(shè)計(jì)的，其輸出結(jié)果一般是自然語言，比如“我看到前方有行人，我應(yīng)該減速”。

然而，對(duì)于車輛底盤而言，它需要的是具體的制動(dòng)壓力、轉(zhuǎn)向扭矩或者是精確到分米的行駛軌跡點(diǎn)。這種從文本描述到物理操作的轉(zhuǎn)換過程，需要一個(gè)額外的翻譯模塊。這個(gè)模塊一旦出現(xiàn)理解偏差，或者因?yàn)槟Ｐ椭g無法進(jìn)行聯(lián)合優(yōu)化，就會(huì)導(dǎo)致信息在傳遞中丟失。這將造成了一個(gè)尷尬的現(xiàn)象，模型可能在語言層面正確識(shí)別了危險(xiǎn)，但在實(shí)際操作中卻未能及時(shí)做出反應(yīng)，這種現(xiàn)象被稱為行動(dòng)鴻溝。

此外，視覺語言模型的實(shí)時(shí)性也是一大硬傷。在高速行駛的自動(dòng)駕駛場(chǎng)景中，毫秒級(jí)的延遲就可能決定安全與否。主流的視覺語言模型通常擁有極大的參數(shù)量，在處理高分辨率圖像并生成連貫文本時(shí)，其推理延遲將達(dá)到數(shù)百毫秒甚至秒級(jí)，這遠(yuǎn)遠(yuǎn)無法滿足每秒需要進(jìn)行數(shù)十次計(jì)算的實(shí)時(shí)控制需求。

由于視覺語言模型架構(gòu)本身并不是為了輸出高頻、精確的控制信號(hào)而優(yōu)化的，因此在很長一段時(shí)間里，其只能作為一種慢思考的插件，掛載在現(xiàn)有的自動(dòng)駕駛系統(tǒng)旁提供參考，而無法真正主導(dǎo)駕駛過程。這種被動(dòng)性限制了它在復(fù)雜動(dòng)態(tài)環(huán)境下的應(yīng)用潛力，從而促使研究者們尋求一種能夠?qū)⒗斫馀c行動(dòng)深度耦合的新技術(shù)路徑。

視覺語言動(dòng)作模型的一體化升級(jí)

視覺-語言-動(dòng)作模型（VLA）的出現(xiàn)，本質(zhì)上是將車輛的認(rèn)知系統(tǒng)與執(zhí)行系統(tǒng)進(jìn)行了一次徹底的物理融合。它不再把駕駛看作是先理解場(chǎng)景再執(zhí)行動(dòng)作的兩個(gè)獨(dú)立步驟，而是將其視為一個(gè)統(tǒng)一的、從傳感器輸入到執(zhí)行器輸出的端到端學(xué)習(xí)過程。

VLA框架示意圖，圖片源自：網(wǎng)絡(luò)

在這種技術(shù)框架下，視覺特征、語言指令和駕駛動(dòng)作被編碼到同一個(gè)高維特征空間中進(jìn)行交互。這意味著模型在學(xué)習(xí)如何識(shí)別紅綠燈的同時(shí)，也在學(xué)習(xí)遇到紅燈時(shí)應(yīng)該如何調(diào)節(jié)剎車踏板。這種深度的耦合使得模型能夠從海量的數(shù)據(jù)中提取出超越簡(jiǎn)單規(guī)則的駕駛技巧，從而表現(xiàn)出更加類人的駕駛行為。

想實(shí)現(xiàn)這一融合，關(guān)鍵技術(shù)之一是動(dòng)作的標(biāo)記化處理。受谷歌機(jī)器人模型RT-2的啟發(fā)，自動(dòng)駕駛領(lǐng)域的VLA模型嘗試將車輛的如轉(zhuǎn)向、加速、制動(dòng)等駕駛動(dòng)作轉(zhuǎn)化為一種特殊的詞匯表。在這種設(shè)定下，生成一段平滑的變道軌跡，在模型看來與寫出一個(gè)句子并無本質(zhì)區(qū)別。

通過將連續(xù)的物理空間離散化為一系列動(dòng)作標(biāo)記，VLA模型能夠直接利用大型語言模型的自回歸特性來預(yù)測(cè)接下來的駕駛行為。這種方法的精妙之處在于，它讓模型在做出動(dòng)作預(yù)測(cè)的同時(shí)，還能附帶輸出這一動(dòng)作背后的邏輯理由，極大地提升了系統(tǒng)的可解釋性。舉個(gè)例子，當(dāng)車輛突然剎車時(shí)，它不僅能執(zhí)行動(dòng)作，還能同步反饋是因?yàn)榭吹搅嗣^(qū)內(nèi)竄出的外賣車，這種透明度對(duì)于建立用戶對(duì)自動(dòng)駕駛的信任至關(guān)重要。

在VLA的驅(qū)動(dòng)下，自動(dòng)駕駛車輛表現(xiàn)出了前所未有的泛化能力。傳統(tǒng)的系統(tǒng)在進(jìn)入一個(gè)從未見過的陌生城市或遇到罕見的特殊路障時(shí)，由于缺乏預(yù)設(shè)規(guī)則，會(huì)表現(xiàn)得不知所措甚至原地停滯。而VLA模型憑借其預(yù)訓(xùn)練階段習(xí)得的通用世界知識(shí)，可以根據(jù)環(huán)境中的語義線索進(jìn)行即時(shí)推理。

例如，當(dāng)它在路邊看到一個(gè)寫著臨時(shí)施工的告示牌時(shí)，即便系統(tǒng)沒有預(yù)裝該路段的地圖信息，它也能通過閱讀牌子上的文字并結(jié)合視覺觀察，自主規(guī)劃出一條繞行路徑。這種對(duì)未知環(huán)境的強(qiáng)適應(yīng)性，被視為從輔助駕駛向全自動(dòng)駕駛跨越的關(guān)鍵一步。

動(dòng)作標(biāo)記化與物理一致性的技術(shù)平衡

盡管將動(dòng)作轉(zhuǎn)化為語言標(biāo)記為模型的一體化掃清了障礙，但在自動(dòng)駕駛這種對(duì)精度要求極高的場(chǎng)景中，如何確保生成的標(biāo)記能夠轉(zhuǎn)化為平滑且符合車輛動(dòng)力學(xué)的軌跡，依然是一個(gè)巨大挑戰(zhàn)。

如果僅僅是簡(jiǎn)單地離散化，模型輸出的動(dòng)作可能會(huì)出現(xiàn)抖動(dòng)，導(dǎo)致車輛行駛不順暢。為了解決這一問題，行業(yè)內(nèi)涌現(xiàn)出了多種軌跡生成的技術(shù)方案。其中一種典型做法是利用動(dòng)作碼本，將車輛可能行駛的二維空間劃分為精細(xì)的網(wǎng)格。

例如，在ReflectDrive等研究中，開發(fā)者將駕駛空間設(shè)定為以車輛為中心的一個(gè)矩形區(qū)域，并以固定分辨率進(jìn)行切分，從而生成數(shù)以百計(jì)的備選標(biāo)記。通過這種方式，模型輸出的每一個(gè)標(biāo)記都對(duì)應(yīng)著物理空間中一個(gè)真實(shí)的坐標(biāo)點(diǎn)，從而保證了動(dòng)作生成的物理落地。

然而，離散標(biāo)記無法捕捉到復(fù)雜交通場(chǎng)景中的細(xì)微連續(xù)變化。因此，另一種更為先進(jìn)的技術(shù)是將擴(kuò)散模型引入VLA的動(dòng)作生成中。擴(kuò)散模型的強(qiáng)項(xiàng)在于它能夠通過迭代去噪的過程，從概率分布中提取出最符合當(dāng)前上下文的連續(xù)軌跡。

在這種架構(gòu)下，大型語言模型骨干負(fù)責(zé)定性，即決定車輛應(yīng)該左轉(zhuǎn)還是右轉(zhuǎn)，而擴(kuò)散模型負(fù)責(zé)定量，即計(jì)算出具體的行駛路徑曲線。理想汽車在MindVLA架構(gòu)中就應(yīng)用了這種組合，其模型先生成語義層面的動(dòng)作標(biāo)記，再通過擴(kuò)散解碼器將其轉(zhuǎn)化為經(jīng)過優(yōu)化的軌跡，這使得車輛在擁堵路口博弈或狹窄車位泊車時(shí)，能夠展現(xiàn)出極其絲滑的操作。

為了進(jìn)一步確保安全性，還有技術(shù)開發(fā)了針對(duì)動(dòng)作標(biāo)記的反射修正機(jī)制。在模型輸出初步的動(dòng)作序列后，系統(tǒng)會(huì)引入一個(gè)專門的安全評(píng)分模塊，利用車輛動(dòng)力學(xué)約束和障礙物預(yù)測(cè)信息對(duì)該序列進(jìn)行快速質(zhì)檢。

如果發(fā)現(xiàn)預(yù)測(cè)的軌跡點(diǎn)有碰撞風(fēng)險(xiǎn)，模型會(huì)基于離散化的動(dòng)作碼本在局部范圍內(nèi)進(jìn)行高效搜索，尋找安全的替代錨點(diǎn)，并要求擴(kuò)散模型以此為基準(zhǔn)重新生成周邊軌跡。這種循環(huán)往復(fù)的自我審視過程，模擬了人類駕駛員在做出決定后發(fā)現(xiàn)不妥并迅速修正的心理過程，極大增強(qiáng)了系統(tǒng)在極端情況下的生存能力。

認(rèn)知雙系統(tǒng)理論在量產(chǎn)中的實(shí)踐

在將龐大的VLA模型推向車載平臺(tái)的過程中，將面臨一個(gè)殘酷的現(xiàn)實(shí)，那就是車載芯片的算力和功耗預(yù)算是極為有限的。盡管英偉達(dá)推出了Thor這樣算力高達(dá)2000 TOPS的芯片，但要流暢運(yùn)行一個(gè)擁有數(shù)十億參數(shù)且需要高頻響應(yīng)的VLA模型，依然捉襟見肘。

為了解決這個(gè)問題，業(yè)界引入了心理學(xué)中的認(rèn)知雙系統(tǒng)理論。這一理論認(rèn)為人類的大腦存在兩個(gè)系統(tǒng)，系統(tǒng)1是快系統(tǒng)，負(fù)責(zé)本能、直覺和下意識(shí)的快速反應(yīng)；系統(tǒng)2是慢系統(tǒng)，負(fù)責(zé)邏輯、分析和復(fù)雜的決策推理。在自動(dòng)駕駛的VLA架構(gòu)中，開發(fā)者們通過巧妙的設(shè)計(jì)重構(gòu)了這一模型。

具體的實(shí)現(xiàn)方式是構(gòu)建一個(gè)異構(gòu)的推理模型。系統(tǒng)2由完整的大語言模型組成，它像一個(gè)資深的教官，負(fù)責(zé)觀察全局路況、解析復(fù)雜的交通規(guī)則以及制定長期的駕駛策略。由于它非常重，通常以較低的頻率運(yùn)行（例如每秒運(yùn)行一兩次）。

而系統(tǒng)1則是一個(gè)輕量級(jí)的動(dòng)作執(zhí)行模塊，它實(shí)時(shí)接收系統(tǒng)2輸出的深層特征作為指導(dǎo)，并結(jié)合最新的傳感器數(shù)據(jù)，以極高的頻率（如100Hz）輸出具體的控制指令。這種快慢結(jié)合的模式，既保留了大模型的智慧，又確保了車輛在遭遇緊急切入或行人橫穿時(shí)，能像人類本能一樣迅速制動(dòng)，而不必等待大模型漫長的思考時(shí)間。

為了進(jìn)一步提升效率，混合專家架構(gòu)（MoE）被證明是VLA走向?qū)嵱玫睦�。在MindVLA等先進(jìn)模型中，并非所有的神經(jīng)元在駕駛時(shí)都同時(shí)工作，而是將模型拆分為多個(gè)領(lǐng)域的專家模塊。比如有的專家擅長處理高速巡航，有的擅長處理雨天感知，有的則專精于狹窄路口的博弈。

在實(shí)際運(yùn)行時(shí)，路由算法會(huì)根據(jù)當(dāng)前路況，動(dòng)態(tài)激活最相關(guān)的少數(shù)專家模塊。這種稀疏激活的技術(shù)，使得模型在擁有巨大知識(shí)容量的同時(shí)，實(shí)際計(jì)算消耗可以維持在較低水平。結(jié)合稀疏注意力機(jī)制和并行解碼技術(shù)，目前的VLA模型已經(jīng)能夠?qū)崿F(xiàn)在車載端的毫秒級(jí)響應(yīng)，這標(biāo)志著認(rèn)知驅(qū)動(dòng)的自動(dòng)駕駛正正式從學(xué)術(shù)研究轉(zhuǎn)向量產(chǎn)工程。

視覺語言動(dòng)作模型在真實(shí)世界的演進(jìn)邏輯

在實(shí)際部署中，VLA模型的訓(xùn)練數(shù)據(jù)不再局限于簡(jiǎn)單的駕駛視頻。為了讓模型真正理解語言與動(dòng)作之間的因果關(guān)系，研究者們開發(fā)了諸如Action Dreaming（動(dòng)作夢(mèng)境）這樣的創(chuàng)新方法。

在傳統(tǒng)的訓(xùn)練中，模型看到的是“司機(jī)看到紅燈于是停車”的單一結(jié)果。然而，為了讓模型理解指令的邊界，開發(fā)者會(huì)在模擬器中創(chuàng)造出各種虛假的未來。如對(duì)于同一個(gè)視覺場(chǎng)景，給模型輸入“直行”和“左轉(zhuǎn)”兩種指令，并讓它預(yù)測(cè)兩種不同的物理后果。通過這種反事實(shí)推理的訓(xùn)練，VLA模型能夠建立起深層的語言-動(dòng)作對(duì)齊，從而在現(xiàn)實(shí)中更準(zhǔn)確地執(zhí)行人類的自然語言指令。

這種對(duì)齊能力的提升，催生了一批具有代表性的工業(yè)界項(xiàng)目。Wayve推出的LINGO-2是首個(gè)在公共道路上測(cè)試的閉環(huán)VLA模型，它能夠邊開車邊解說，通過實(shí)時(shí)語音反饋其為何減速、為何繞行，從而讓車內(nèi)乘客能夠?qū)崟r(shí)洞察車輛的思維邏輯。

而理想汽車推出的MindVLA，則更進(jìn)一步地強(qiáng)調(diào)了空間智能的整合。通過自主研發(fā)的3D Gaussian（3D高斯）表征技術(shù)，MindVLA能夠?qū)?fù)雜的城市街道轉(zhuǎn)化為一種可計(jì)算的、具備幾何精確度的三維語義空間。在這種空間內(nèi)，動(dòng)作的生成不再是盲目的黑盒預(yù)測(cè)，而是基于對(duì)障礙物物理邊界的深刻理解。這使得它即便在無圖的陌生車庫內(nèi)，也能憑借純粹的視覺和語義推理，像老司機(jī)一樣找到車位并完成停放。

VLA模型在自動(dòng)駕駛領(lǐng)域的意義遠(yuǎn)不止于駕駛?cè)蝿?wù)本身。它實(shí)際上是在構(gòu)建一個(gè)通用的物理世界代理。隨著這一技術(shù)的日趨成熟，車輛將從一個(gè)單純的代步工具進(jìn)化為一個(gè)具備理解和執(zhí)行能力的智能體。

未來，用戶可能不再需要設(shè)置復(fù)雜的導(dǎo)航點(diǎn)，只需隨口一句“去最近的超市買點(diǎn)面包”，VLA驅(qū)動(dòng)的車輛便能通過搜索興趣點(diǎn)、理解交通流、規(guī)劃路線、規(guī)避風(fēng)險(xiǎn)，并最終準(zhǔn)確地停在超市門口。這種從規(guī)則驅(qū)動(dòng)到語義認(rèn)知，再到物理行動(dòng)的閉環(huán)，不僅解決了自動(dòng)駕駛的長尾問題，更開啟了物理人工智能的新時(shí)代。

總結(jié)與未來展望

視覺語言動(dòng)作模型（VLA）在自動(dòng)駕駛中的崛起，標(biāo)志著人工智能從純粹的信息處理向物理實(shí)體交互的質(zhì)變。相比于視覺語言模型（VLM），VLA的核心價(jià)值在于它消除了語義理解與物理執(zhí)行之間的斷層，通過統(tǒng)一的端到端框架，實(shí)現(xiàn)了感知、決策與控制的深度集成。這一跨越使得自動(dòng)駕駛車輛能夠擺脫對(duì)高精地圖和繁瑣手工規(guī)則的依賴，轉(zhuǎn)而依靠通用的常識(shí)和實(shí)時(shí)推理來處理復(fù)雜多變的現(xiàn)實(shí)環(huán)境。

-- END --

原文標(biāo)題 : 已有VLM，自動(dòng)駕駛為什么還要探索VLA?

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

行業(yè)報(bào)告

2025年激光雷達(dá)應(yīng)用市場(chǎng)調(diào)研及前景預(yù)測(cè)報(bào)告
2025年中國光電傳感器市場(chǎng)發(fā)展現(xiàn)狀及投資前景分析
2025年中國汽車電子行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及投資前景分析
2025年新能源汽車充電樁市場(chǎng)分析報(bào)告

最新發(fā)布

最新活動(dòng)更多

3月6日
立即預(yù)約>> 【在線直播】可視化神器！VisionSym 賦能汽車光學(xué)原型開發(fā)
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會(huì)
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
精彩回顧
立即查看>> Works With 開發(fā)者大會(huì)深圳站
精彩回顧
立即查看>> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

智能汽車網(wǎng) 獵頭職位更多

硬件開發(fā)工程師（前裝汽車電子）深圳奧尼電子股份有限公司
產(chǎn)品工程師（汽車）易思維（杭州）科技股份有限公司
（汽車）PQE工程師廣東和勝新能源科技有限公司

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<strike id="300pe"><label id="300pe"></label></strike>

<progress id="300pe"><listing id="300pe"><table id="300pe"></table></listing></progress>

<strike id="300pe"><label id="300pe"></label></strike>