訂閱
糾錯
加入自媒體

吳新宙帶領英偉達沖刺自動駕駛L4背后的VLA大模型算法

2025-11-17 14:56
vehicle公眾號
關注

2023年8月,吳新宙算是在中國L2+智能輔助駕駛競爭頂峰--輔助駕駛進城之后離開小鵬汽車加入英偉達。2024年1月,特斯拉推出FSD V12 Beta端到端版本,智能輔助駕駛算法進入“端到端”階段。隨即中國代表了全球輔助駕駛市場全面擁抱了端到端。

不過,此時的自動駕駛領域中,吳新宙帶領的英偉達自動駕駛好像已經淹沒在端到端自動駕駛+高端芯片自研的自動駕駛競賽中,甚至英偉達4月份的GTC上也不過一分鐘過一下老生常談的車端方案和云端訓練硬件,而吳新宙自己主導的專項GTC演講,雖然有VLM,但產品路線圖也沒看到什么新意。

到了,今年10月的GTC,我們之前文章《英偉達 GTC 2025:6G通訊、量子計算、L4自動駕駛方面三大全新產品技術》也分享了,黃仁勛機竟然花了五分鐘廣告其L4 Robotaxi要點和成績。

與 Uber 合作,從2027年開始會有10萬輛采用英偉達方案的自動駕駛車輛。Lucid、奔馳、Stellantis 等主機廠和十幾家自動駕駛開發(fā)公司采用英偉達的L4軟硬方案。

于是,吳新宙應該是帶領英偉達找到了沖刺L4新征程的方向,這個沖刺新征程背后除了英偉達的AI硬件,還有一種新的VLA軟件。

很多人會說,為什么不是世界模型?這是最前沿的,確實世界模型是最前沿的,可是理論世界的兩大世界模型的領軍人物Li feifei還在搖旗吶喊demo階段,Yann LeCun剛從Meta失業(yè),所以怎么可能真的世界模型就能上應用呢!

當前大家講的世界模型不過依然是通過LLM將物理世界語言化和圖形化的模型,與VLA是同一個分支。而真正找到3D世界+時間的隱式表達token的世界模型還在實驗室尋找中。

最近英偉達公布了其名為 Alpamayo-R1 的VLA模型一些思路和想法,應該就是英偉達推進L4落地的一些方法和實踐,應該屬于當前技術產品化的最先進方向。

所以,本文就從VLA當前結構和挑戰(zhàn),英偉達L4 VLA 算法結構,英偉達L4 VLA數據標注和訓練方法來分享解析這個VLA算法。

當前VLA結構的挑戰(zhàn)

熟悉我們之前VLA的文章朋友們肯定知道,VLA可以通過語言模型來進行理解和推理人類世界,這樣將智能輔助駕駛相比之前純粹的端到端有了以下幾個優(yōu)點:

通過明確的反事實推理和運行時安全交叉檢查及監(jiān)控,提高了安全性。

通過提供人類可讀的決策原理,提高了可解釋性。

可作為可驗證的獎勵,用于提高長尾性能,提供了更豐富的訓練信號。

VLM/VLA 已被幾家頭部應用于自動駕駛,不過,雖然都叫VLA,但是當前不少VLA可能本質還是一個VA:

也就是大多為反應性地操作而沒有明確推理,難以泛化到需要反事實推理的模糊或長時域場景。

此外,簡單的將自動駕駛的推理視為純粹的自然語言處理(NLP)問題,會忽略駕駛需要豐富的3D和物理空間知識:車道幾何、交通規(guī)則、智能體交互和動態(tài)約束。

于是,英偉達的自動駕駛VLA模型 Alpamayo-R1 采用以下創(chuàng)新方法來

開發(fā)了一個結構化的因果鏈(CoC)標注框架,該框架生成以決策為基礎、具有因果關聯(lián)的推理痕跡,并通過混合的人工參與和自動標注流程支持可擴展的高質量數據生成。

采用了基于流匹配(flow matching)的擴散型行動專家軌跡解碼器,以高效地生成連續(xù)的、多模態(tài)軌跡規(guī)劃,這些規(guī)劃與語言推理輸出對齊,并滿足實時推理要求。

采用多階段訓練策略,基于 Cosmos-Reason VLM 主干,注入行動模態(tài)進行軌跡預測,通過在 CoC 數據上進行監(jiān)督微調(SFT)來激發(fā)推理能力,并采用強化學習(RL)來提升推理質量、推理-行動一致性及軌跡質量。

通過以上方式來達到VLA的真正效果,能夠真正推理,能夠真正理解一些駕駛的3D空間知識。

英偉達L4 VLA 模型結構

其實所有的 VLA就是一種端到端架構。英偉達AR1也不例外,系統(tǒng)處理多攝像頭、多時間步觀察作為視覺輸入,可選擇性地增強語音文本輸入,如用戶命令和高級導航指令。所有輸入都被 Token 化為統(tǒng)一的多模態(tài) Token 序列,然后由 Cosmos-Reason 這個VLM主干處理。

VLM 主干:Cosmos-Reason是英偉達自己的VLM,在AR1 VLA模型中這個VLM模型經過了2.47萬個專注于駕駛場景的視頻 VQA (Visual Question Answering,視覺問答)樣本訓練微調成為了一個駕駛Physical AI VLM。

當前來講 VLM模型算是易得,但是好的數據難求,英偉達AR1讓他每一個動作和行為都有明確的推理和解釋,微調訓練的數據就必須要有這些東西。

所以,英偉達 AR1整理和標注好2.47萬個駕駛的視頻和問答推理,來微調這個VLM。2.47萬個視頻包含描述和問答推理,這是個巨大的工作量,后文我們有分享英偉達數據標注方法。

有了這個特調的VLM,那么VLA另外兩個重要的事情就是把輸入的視覺和語言進行編碼進入VLM,另一方面就是把VLM吐出來的東西解碼成運動軌跡。

輸入的視覺編碼 (Vision Encoding),對于自動駕駛來講,計算的成本是有限的,所以VLM 中的視覺編碼器必須產生盡可能少的 Token,同時保留相關的語義信息,以實現車載部署。英偉達AR1研究過和采用的方法是:

單個攝像頭單幀編碼,例如,對于 448x280 像素的圖像,此過程為每張圖像生成 160 個 Token。由于自動駕駛車輛通常使用 6 到 10 個攝像頭,單圖像 Token 化產生的 Token 數量會隨攝像頭數量線性增加,從而妨礙實時推理。

多攝像頭單幀同步編碼,可以采用 3D 歸納偏置的方法使 Token 數量與攝像頭的數量和分辨率解耦。例如,對于 7 攝像頭設置,只需 288 個 Token 即可表示一個時間步的觀察結果。

多攝像頭視頻編碼:對來自多個時間步的攝像頭觀察序列進行直接編碼,壓縮率為高達 20 倍(相比單圖像 Token 化),同時保持或甚至改善下游駕駛指標。

顯然英偉達AR1 應該是應用了多攝像頭同步編碼的方式,來節(jié)省算力需求,畢竟車端部署,算力和實時性是最大的約束,誰能算的快算的準是AI的要求。

當然還有語音文本的模態(tài),這個輸入對于VLM就是信手拈來,畢竟原生就是LLM。

輸出的軌跡解碼 (Trajectory Decoding),英偉達AR1結合了離散軌跡 Token(在 VLM 內部學習)與行動專家(action-expert)的策略。

一般VLA的VLM內部吐出的是基于車輛的位置軌跡,但是,這種原始位置(x, y)路徑點空間訓練模型容易受到傳感器噪聲的影響,后面在平滑處理,最后帶來更多不準確的信息。

因此,英偉達AR1提出了單輪動態(tài)學(unicycle dynamics) 控制的行動表示。x和y表示鳥瞰圖(BEV)平面中的位置航點,θ表示偏航角,v表示速度,k表示曲率,a表示加速度。并將這些參數映射到VLM中,共用一套Token。

最后,行動專家使用 Flow Matching 框架和我們之前文章分享的Diffusion 擴散模型一樣,兩者都致力于將噪聲轉化為結構化數據,也就最后輸出自動駕駛輸出的控車信息。

這樣,使得推理和軌跡共享一個共同的 Token 空間,允許 VLM 通過標準下一 Token 預測緊密耦合因果解釋與車輛行為。

同時,Flow Matching 提供了計算效率,生成連續(xù)軌跡的速度比自回歸采樣 128 個離散 Token 快得多,從而實現了實時推理。

英偉達L4 VLA 數據標注和訓練方法

所以,英偉達AR1 VLA模型將VLA模型組合的更緊密了,有點像流水線從原材料到包裝發(fā)運到在一條產線上。

有了流水線,那么如何訓練和組織原材料(數據)成為模型成功最重要的因素。

英偉達AR1 的推理和軌跡共享一個共同的 Token 空間就必須讓之前訓練的數據結構發(fā)生變化。推理數據必須與自我軌跡緊密相關,才能使推理 VLA 模型能夠解釋駕駛行動的原因并提高其軌跡性能。

而數據的產生就是標注。

Alpamayo-R1 模型訓練的標注框架將每個數據樣本分解為三個結構化組件:駕駛決策、因果因素(關鍵組件) 和組合推理痕跡。

自動駕駛決策的分類表,它定義了模型必須學習的各種縱向和橫向駕駛動作及其具體的含義。

關鍵組件,是模型生成因果基礎解釋(CoC 推理)時必須引用的“證據”

最后就是輸出組合的推理痕跡,它強調了在識別出駕駛決策和關鍵場景組件后,如何將其語言化并組織成連貫、具有因果邏輯的解釋。

有了這些規(guī)則,同時在實際標注時候,為了確保訓練數據的高質量和實用性,標注時候需要考慮:

因果覆蓋,因果正確性

同時這是為了實現標注經濟性,聚焦于最關鍵、最直接的因素 。例如,如果汽車停了下來,是因為前車剎車(近端原因),而不是因為前面有一個紅燈(背景條件);

最后是,決策最小化: 確保只在決策發(fā)生變化時才生成新的推理軌跡,從而提高數據效率和模型的注意力集中度。

有了這標注的三個結構組件規(guī)則和方法論,接下來就是標注。

但,標注之前是確定應該在何時標記這些推理數據。因為,并非每個視頻片段都值得標注;只有在可觀察因素與自車隨后的決策之間能建立明確因果聯(lián)系的時刻,才會觸發(fā)標注。因此,數據管理是數據標注框架的一個關鍵方面,它涉及到識別這些關鍵的推理時刻。

英偉達AR1 每個數據的原始片段包含 20 秒的數據,并且可以生成多個訓練樣本(因為在訓練和評估中都配置使用 2 秒歷史來預測 6 秒未來)。

有了視頻數據之后,英偉達AR1的數據采用人工和自動標注。

人工標注,采用兩階段流程:

階段 I (0-2 s):在可觀察的歷史窗口內識別關鍵組件,以防止因果混淆。

階段 II (0-8 s):選擇關鍵幀后的第一個駕駛決策,并撰寫 CoC 推理痕跡,僅引用階段 I 中確定的因果因素。我們實施了嚴格的 QA 流程來最大化標注質量。

自動標注:使用最先進的 VLM(如 GPT-5 (OpenAI, 2025))進行離線自動標注。該流程將世界知識蒸餾到結構化的 CoC 標注中。自動標注 VLM 被提示使用 2 秒的歷史視頻來識別關鍵組件。

這就形成了訓練最關鍵的數據。有了數據之后才能喂入模型訓練。

當前VLA模型的訓練算是統(tǒng)一標配了,之前文章《揭秘小鵬自動駕駛「基座模型」和 「VLA大模型」》也分享過類似的訓練流程。

VLM 訓練就是通用VLM,當前的多模態(tài)大模型類似,所以不講。

先,Pre-Training注入動作模態(tài) (Injecting Action Modality) — 對應 Pre-Training, 使視覺語言模型 (VLM) 能夠預測車輛控制輸出。當然這里需要匹配上文講到的一個基于流匹配 (flow matching) 的動作專家 (action-expert)。這樣一個初始的擁有執(zhí)行和預測駕駛軌跡的能力的VLA模型構建完成。

之后,SFT提升推理能力 (Improving Reasoning Capability) — 對應 SFT,提高模型的推理能力,使其能夠生成因果基礎的解釋來支持駕駛決策。這里就需要上文講到的在2.47萬的CoC 數據集,在它上進行有監(jiān)督微調 (SFT)。

這樣VLA可以生成因果基礎的解釋,使模型能夠提供可解釋且更好的駕駛決策。

最后,RL 的強化學習后訓練,構建獎勵模型,來強化人類想要的東西,英偉達AR1 利用大型推理模型的反饋來精煉推理質量。最終將推理軌跡與實際執(zhí)行的動作對齊。最終VLA模型產生可解釋且安全的駕駛行為,并優(yōu)化整體軌跡質量。

利用大型推理模型進行推理評分,利用DeepSeek-R1 作為推理批評家,對 VLA 生成的推理痕跡質量提供可擴展、高質量的反饋。評估行為一致性和因果推理質量。鼓勵模型生成不僅描述正確駕駛行為,而且保持因果忠實性的推理。

數據集CoC-行動一致性:CoC-動作一致性獎勵通過將模型的語言輸出(推理)與其物理輸出(動作)進行硬性、基于規(guī)則的匹配,確保了模型的解釋性和可靠性,是實現可信賴自主駕駛的關鍵環(huán)節(jié)。

低級軌跡質量,也就是輸出運動控制: 確保生成的運動軌跡在物理上可行、舒適且安全。主要是三個方面:軌跡曲線平滑類人。碰撞懲罰和加加速度(Jerk)懲罰,以懲罰突然或不舒服的運動。這些項將模型的學習錨定到類人、安全和舒適的運動。

這樣基本就完成了整個VLA的構建,后續(xù)模型升級就是根據回傳的極端場景進行修復和優(yōu)化。

寫在最后

吳新宙,確實是個人才,進入英偉達時候算是高位接盤,在L2+這么卷的市場已經很難有建樹,到現在,用最前沿能到手的技術開辟了一個L4戰(zhàn)場,算是給職業(yè)生涯接上了另外一棒。

而對于算法,VLA在當前大語言模型應用成熟,空間智能還在實驗室的背景下,確實是實現自動駕駛產品化的最優(yōu)解。

而不管如何數據和數據處理能力成為人工智能算法軟件的核心。

參考文章以及圖片

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - 英偉達

*未經準許嚴禁轉載和摘錄-

       原文標題 : 吳新宙帶領英偉達沖刺自動駕駛L4背后的VLA大模型算法

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號