123,123,123

<ul id="t4ec3"><th id="t4ec3"></th></ul>

當前位置： OFweek 智能汽車網(wǎng) > 正文

輔助駕駛從VLM與VLA：2025年下半年的核心轉變

2025-04-28 15:11

芝能科技出品

輔助駕駛技術正從基于規(guī)則和模塊化的傳統(tǒng)范式，邁向由視覺語言模型（VLM）和視覺-語言-動作模型（VLA）驅動的新階段。

● VLM作為車輛的“認知核心”，通過統(tǒng)一處理多模態(tài)感知數(shù)據(jù)和自然語言信息，使車輛能夠理解復雜的交通場景、遵守抽象的交通規(guī)則并響應人類指令。

● VLA則在VLM的理解基礎上，深度融合感知、理解與車輛控制，實現(xiàn)端到端、擬人化的駕駛行為。

01

從VLM到VLA

傳統(tǒng)的自動駕駛依賴精確的環(huán)境建模和規(guī)則編程，難以應對現(xiàn)實世界的復雜性與模糊性。

視覺語言模型（VLM）旨在解決這一問題，構建車輛的“認知核心”。

VLM的關鍵在于能夠統(tǒng)一處理來自攝像頭、激光雷達等傳感器的感知數(shù)據(jù)，以及交通規(guī)則文本、導航信息、自然語言指令等語言數(shù)據(jù)。通過強大的模型架構，VLM能將這些異構信息編碼到共同的特征空間，實現(xiàn)跨模態(tài)的關聯(lián)與推理。

這使得車輛不僅僅是識別障礙物，更能理解場景的深層含義，例如識別特定標志牌并結合交通法規(guī)判斷當前行為是否合法，或理解用戶“靠邊停車”的語音指令并規(guī)劃執(zhí)行。

● VLM的應用廣泛，例如：

◎ 場景語義解析：識別并理解“潮汐車道”、“施工繞行”等復雜交通語境，生成符合規(guī)則的駕駛決策。

◎ 智能人車交互：理解自然語言指令（如“切換駕駛模式”），或識別視覺興趣點（如充電樁）并與之關聯(lián)。

◎ 高階安全判斷：分析復雜場景（如無保護左轉）下潛在風險，輔助決策。

實現(xiàn)這些能力需要強大的計算支持，VLM的出現(xiàn)，讓自動駕駛系統(tǒng)從“看清”邁向“看懂”，是實現(xiàn)更高層級自主性的前提。理解世界僅僅是第一步，將理解轉化為恰當?shù)男袆邮亲詣玉{駛的最終目標。

視覺-語言-動作模型（VLA）正是負責這一轉化過程，實現(xiàn)從感知、理解到車輛控制的端到端連接。VLA將來自VLM或其他感知模塊的環(huán)境理解，與車輛的轉向、加速、制動等控制指令深度耦合，學習直接從輸入到輸出的映射。

它形成了一個端到端（End-to-End）的閉環(huán)：接收感知和語言輸入，內部進行決策，直接輸出控制信號。這種模式簡化了傳統(tǒng)系統(tǒng)的復雜層級，有望提升系統(tǒng)整體響應速度和魯棒性。

采用Diffusion模型生成駕駛軌跡，并結合ODE采樣器優(yōu)化規(guī)劃過程，顯著提升了軌跡生成質量和復雜路況下的博弈能力，這代表了VLA在行為生成層面的重要進展。

VLM和VLA并非孤立工作，而是緊密協(xié)同， VLM理解場景、規(guī)則和指令，為VLA提供宏觀的駕駛意圖和策略指導（例如：根據(jù)導航規(guī)劃變道、識別危險需避讓）。

VLA根據(jù)VLM的指導和實時的感知信息，生成并執(zhí)行精確的車輛軌跡和控制動作。VLA的執(zhí)行結果（成功或失敗）可作為反饋，反向優(yōu)化VLM對場景的理解和決策邏輯，形成持續(xù)學習的閉環(huán)。

02

VLA+英偉達Thor，

“空間智能體”

在導入VLA的狀態(tài)中，理想汽車是很快的。MindVLA（視覺-語言-行動模型）開始向融合空間智能、語言智能和行為智能的物理人工智能邁進。

圍繞3D空間理解、高效模型架構、增強邏輯推理、優(yōu)化軌跡生成、高精度仿真以及卓越泛化能力，讓車輛具備感知、思考和自主行動的能力。

● 3D高斯（3D Gaussian）作為核心中間表征，這是其空間智能的基礎。

與傳統(tǒng)的點云或體素表示相比，3D高斯能同時捕捉物體的幾何形狀和外觀信息，具有更強的語義表達能力和多粒度、多尺度的幾何表達靈活性。這使得系統(tǒng)能更全面、高效地感知和理解復雜的3D環(huán)境。

結合海量數(shù)據(jù)上的自監(jiān)督學習，系統(tǒng)能自動從無標注數(shù)據(jù)中提取有效的3D特征，大幅提升環(huán)境感知的精度和效率，為后續(xù)決策奠定堅實基礎。

為了在計算資源有限的車端環(huán)境運行大規(guī)模模型，采用了MoE（Mixture of Experts）架構并引入稀疏注意力（Sparse Attention）。

MoE允許模型在擁有龐大參數(shù)量的同時，針對特定輸入只激活部分“專家”網(wǎng)絡，實現(xiàn)計算的稀疏化，從而在不犧牲模型規(guī)模的前提下，維持較高的端側推理效率。

● 邏輯推理能力是提升的核心，通過訓練LLM基座模型學習人類思考模式，并有機結合**“快思考”（實時響應）和“慢思考”（深度推理），模型能根據(jù)不同駕駛情境靈活切換決策模式，提升決策的安全性和合理性。

同時，為了最大化利用NVIDIA Drive AGX算力，小詞表、投機推理和并行解碼等技術，結合英偉達的推理優(yōu)化，實現(xiàn)了高達7倍的推理效率提升，確保復雜推理也能滿足實時性要求。

● 擴散模型（Diffusion Model）優(yōu)化駕駛軌跡，以生成高質量復雜數(shù)據(jù)聞名，應用于軌跡生成有望生成更平滑、更自然、更具博弈性的駕駛路徑。通過自車行為生成與他車軌跡預測的聯(lián)合建模，系統(tǒng)能更好地預測交通參與者的行為并進行合理應對。

通過構建人類偏好數(shù)據(jù)集并引入RLHF（基于人類反饋的強化學習）微調，能更好地對齊人類駕駛習慣，顯著提升復雜和極端場景下的安全底線。

NVIDIA Drive AGX平臺和生態(tài)的支撐，在世界模型、NRE、模型訓練加速以及端側優(yōu)化部署等領域的技術進展。

小結在2025年，我們看到VLA通過3D高斯表征、MoE架構和Diffusion模型，實現(xiàn)了高效的空間理解、邏輯推理和軌跡生成，英偉達的Thor芯片、NVIDIA Cosmos世界模型和NRE引擎為VLA提供了強大的算力支持和仿真環(huán)境，加速了技術從實驗室到量產(chǎn)的轉化。

原文標題 : 輔助駕駛從VLM與VLA：2025年下半年的核心轉變

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

行業(yè)報告

2025年激光雷達應用市場調研及前景預測報告
2025年中國光電傳感器市場發(fā)展現(xiàn)狀及投資前景分析
2025年中國汽車電子行業(yè)市場發(fā)展現(xiàn)狀及投資前景分析
2025年新能源汽車充電樁市場分析報告

最新發(fā)布

最新活動更多

3月6日
立即預約>> 【在線直播】可視化神器！VisionSym 賦能汽車光學原型開發(fā)
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術峰會
精彩回顧
立即查看>> 【工程師系列】汽車電子技術在線大會
精彩回顧
立即查看>> Works With 開發(fā)者大會深圳站
精彩回顧
立即查看>> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

智能汽車網(wǎng) 獵頭職位更多

硬件開發(fā)工程師（前裝汽車電子）深圳奧尼電子股份有限公司
產(chǎn)品工程師（汽車）易思維（杭州）科技股份有限公司
（汽車）PQE工程師廣東和勝新能源科技有限公司

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結構工程師廣東省/深圳市

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<blockquote id="damjm"></blockquote>