推進(jìn) AI 打造最值得信賴的駕駛員:Waymo 在自動(dòng)駕駛模型算法方面的實(shí)踐
在NVIDIA GTC 2025 上,Waymo 副總裁兼研究主管 Drago Anguelov 發(fā)表了題為“推進(jìn) AI 打造最值得信賴的駕駛員”的演講。他演講的核心思想是,要成為世界上最值得信賴的駕駛員,需要將先進(jìn)的 AI 模型與實(shí)際駕駛經(jīng)驗(yàn)相結(jié)合,打造一個(gè)安全、可靠且具有社會(huì)意識(shí)的自動(dòng)駕駛系統(tǒng)。在會(huì)上,Drago具體分享了,Waymo在“構(gòu)建駕駛員”(Building the Driver)和“驗(yàn)證駕駛員”(Validating the Driver)等自動(dòng)駕駛算法方面的實(shí)踐。
當(dāng)然此演講,也被外網(wǎng)不少技術(shù)大拿評(píng)價(jià)為2025GTC最值得看的自動(dòng)駕駛內(nèi)容。本文根據(jù)相關(guān)內(nèi)容整理,Waymo自動(dòng)駕駛主要是基于AI算法方面實(shí)踐內(nèi)容,希望帶來一些信息和前沿AI自動(dòng)駕駛算法關(guān)鍵詞的理解。構(gòu)建駕駛員”(Building the Driver)-從人類駕駛到AI駕駛的躍遷人類駕駛其實(shí)是一項(xiàng)復(fù)雜的技術(shù),一般的法律都需要滿16歲,然后通過交通規(guī)則的考試和實(shí)際操作考試,最后才允許上路駕駛。
那么換成機(jī)器去駕駛,同樣會(huì)有人類駕駛難題的挑戰(zhàn):復(fù)雜的物理環(huán)境,現(xiàn)實(shí)的駕駛環(huán)境包括不同的天氣,光照,灰塵;道路上其他人的駕駛危險(xiǎn)和違章等等,而人類駕駛的眼睛等能夠處理高維多模態(tài)輸入,每秒可讀取1億個(gè)傳感器讀數(shù)。高性能計(jì)算的需求,汽車駕駛需要在安全相關(guān)領(lǐng)域操作,如果出錯(cuò),可能導(dǎo)致嚴(yán)重后果。而且,各種事故的出現(xiàn),大概率都是罕見的長(zhǎng)尾案例。實(shí)時(shí)性的計(jì)算,所有安全關(guān)鍵計(jì)算必須使用汽車的車載計(jì)算機(jī)實(shí)時(shí)執(zhí)行,必須遵守嚴(yán)格的延遲要求。Waymo駕駛員構(gòu)建的法則是,利用AI技術(shù),采用Waymo基礎(chǔ)模型(Foundation Model)的方式。Waymo基礎(chǔ)模型(Foundation Model)Waymo基礎(chǔ)模型(Waymo Foundation Model)的核心目標(biāo)是結(jié)合專有的自動(dòng)駕駛機(jī)器學(xué)習(xí)技術(shù)(AV-specific ML)與通用視覺語言模型(VLMs)的世界知識(shí),以解決自動(dòng)駕駛中的關(guān)鍵挑戰(zhàn)。
感知輸入數(shù)據(jù):整合攝像頭(Camera)、激光雷達(dá)(Lidar)、雷達(dá)(Radar)等多傳感器數(shù)據(jù)。Token和Decoder:通過Tokenizer(分詞器)和Decoder(解碼器)處理,生成統(tǒng)一的場(chǎng)景表示,形成類似于語言結(jié)構(gòu),方便LLM類的大模型處理。中間任務(wù):利用Intermediate Tasks(如目標(biāo)檢測(cè)、語義分割)提取場(chǎng)景特征,并通過Language Aligned Encoders(語言對(duì)齊編碼器)將感知結(jié)果與地圖先驗(yàn)(Map Prior)結(jié)合,增強(qiáng)空間推理能力。
以上為Waymo駕駛的基礎(chǔ)模型框架,在這個(gè)框架里面,Waymo做了更細(xì)節(jié)的實(shí)踐。MotionLM架構(gòu)擴(kuò)展上文講到,駕駛中最難的是交互,Waymo推出MotionLM模型,它將多智能體也就是其他交通參與者的行為建模為“對(duì)話”,使用類似LLM的架構(gòu)預(yù)測(cè)軌跡(類似語言中的句子),支持長(zhǎng)尾場(chǎng)景的交互決策。通過大規(guī)模計(jì)算(FLOPs)驗(yàn)證模型性能隨規(guī)模提升的規(guī)律。
端到端多模態(tài)模型(EMMA)這個(gè)我們之前文章《采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》分享過,他是基于Gemini架構(gòu),支持多任務(wù)(如3D目標(biāo)檢測(cè)、可行駛區(qū)域估計(jì)、路徑規(guī)劃)的統(tǒng)一模型。在Waymo Open Motion和nuScenes數(shù)據(jù)集上達(dá)到SOTA性能(如EMMA+的L2誤差僅0.29m)。
而可以看到,國(guó)內(nèi)模型方面例如地平線的UniAD;理想汽車和清華做的Drive VLM誤差都比Waymo的EMMA大。
以上就是為Waymo在自動(dòng)駕駛方面“構(gòu)建駕駛員”的一些探索;那么如何確保構(gòu)建的駕駛員是正確的,安全的?這個(gè)時(shí)候就需要驗(yàn)證駕駛員”(Validating the Driver)了。驗(yàn)證駕駛員”(Validating the Driver)-應(yīng)對(duì)視覺語言模型的局限性為什么要驗(yàn)證構(gòu)建的駕駛員?方法論上是可實(shí)施的,但是當(dāng)前自動(dòng)駕駛主要依賴的核心技術(shù)是視覺AI,而當(dāng)前的視覺語言模型也是有他的局限性的。獨(dú)立視覺語言模型(Standalone Vision-Language Model)的局限性主要包括以下四點(diǎn):
1. 多模態(tài)傳感器支持不足(Multi-modal Sensor Support)其實(shí),現(xiàn)有模型難以有效整合激光雷達(dá)(Lidar)、視覺(Camera)、雷達(dá)(Radar)等多模態(tài)傳感器的數(shù)據(jù)。但是,當(dāng)前的自動(dòng)駕駛需要融合不同傳感器的互補(bǔ)信息(如激光雷達(dá)的精確3D定位與視覺的語義理解),獨(dú)立模型在此類跨模態(tài)對(duì)齊與聯(lián)合推理中存在性能瓶頸。
2. 空間推理精度有限(Accurate Spatial Reasoning)當(dāng)前的模型對(duì)三維物理空間的動(dòng)態(tài)感知和推理能力不足,例如在復(fù)雜交通場(chǎng)景中準(zhǔn)確預(yù)測(cè)車輛、行人的運(yùn)動(dòng)軌跡(如ADE指標(biāo)中的誤差積累)。例如,演講中提到EMMA+模型在8秒預(yù)測(cè)窗口的ADE誤差仍達(dá)1.553米(Waymo Open Motion數(shù)據(jù)集),表明長(zhǎng)時(shí)空間推理仍需提升。
3. 長(zhǎng)期記憶能力欠缺(Long Term Memory)當(dāng)前的大模型缺乏對(duì)歷史場(chǎng)景的持續(xù)記憶能力,難以在長(zhǎng)時(shí)間駕駛?cè)蝿?wù)中保持上下文一致性(如跟蹤持續(xù)移動(dòng)的目標(biāo)或應(yīng)對(duì)周期性事件)。例如,在復(fù)雜城市道路中(如多次變道、路口連續(xù)交互),短期記憶可能導(dǎo)致決策片段化,增加風(fēng)險(xiǎn)。
4. 魯棒推理與幻覺抑制不足(Robust Reasoning without Hallucinations)當(dāng)前大模型在噪聲數(shù)據(jù)或模糊場(chǎng)景下易產(chǎn)生錯(cuò)誤推斷(如誤判障礙物位置)或“幻覺”(如虛構(gòu)不存在的交通參與者)。當(dāng)前類似的與Deepseek或者ChatGPT有這種幻覺,頂多讓你信息錯(cuò)誤,而駕駛在公共道路上,任何的事故風(fēng)險(xiǎn)都是人命,所以比較要驗(yàn)證“自動(dòng)駕駛的駕駛員”。
驗(yàn)證的主要內(nèi)容是應(yīng)對(duì)不同場(chǎng)景下,不同駕駛參與者的博弈和交互;驗(yàn)證感知的內(nèi)容是準(zhǔn)確的。Waymo的驗(yàn)證駕駛員”(Validating the Driver)實(shí)踐有:
1,可擴(kuò)展的仿真驗(yàn)證平臺(tái)。開發(fā)了基于AI的交通仿真器Scene Diffuser++,通過生成式世界模型實(shí)現(xiàn)城市級(jí)多智能體交通流模擬。該模型采用多模態(tài)張量擴(kuò)散技術(shù),聯(lián)合預(yù)測(cè)未來時(shí)間步中所有交通參與者(車輛/信號(hào)燈)的運(yùn)動(dòng)軌跡和狀態(tài)有效性。使用Block-NeRF技術(shù),通過車輛自有傳感器數(shù)據(jù)重建城市街區(qū)的三維環(huán)境,實(shí)現(xiàn)高保真度的傳感器模擬(如激光雷達(dá)、攝像頭)。
現(xiàn)在采用3D高斯?jié)姙R(3DGS)來取代NeRF技術(shù)。NeRF:依賴神經(jīng)網(wǎng)絡(luò)隱式建模場(chǎng)景的輻射場(chǎng),通過體積渲染生成圖像,需復(fù)雜的光線追蹤計(jì)算。3DGS:使用顯式的各向異性3D高斯模型(帶有外觀信息的幾何體素),直接渲染場(chǎng)景,兼容傳統(tǒng)圖形引擎,無需復(fù)雜的光線追蹤。
這樣,采用3D高斯?jié)姙R(3DGS)實(shí)時(shí)渲染技術(shù),比NeRF快57倍,提升模擬真實(shí)性和效率。
2.真實(shí)場(chǎng)景生成與泛化驗(yàn)證基于大規(guī)模真實(shí)駕駛數(shù)據(jù)學(xué)習(xí)仿真器(Real2Sim),Controllable Editing,支持多視角場(chǎng)景重建與全局編輯(如天氣、時(shí)間變化),重點(diǎn)解決系統(tǒng)在未見過場(chǎng)景中的泛化能力挑戰(zhàn)。
通過隨機(jī)化車輛動(dòng)態(tài)參數(shù)(如加速度限制、轉(zhuǎn)向響應(yīng))和道路使用者行為(如模擬注意力缺失駕駛員),生成多樣化測(cè)試場(chǎng)景,驗(yàn)證系統(tǒng)在極端情況下的魯棒性。寫在最后Waymo還是非常合規(guī)和謹(jǐn)慎的企業(yè),Waymo剛開始是Google于2009年1月開啟的一項(xiàng)自動(dòng)駕駛汽車計(jì)劃,之后于2016年12月才由Google獨(dú)立出來,然而到現(xiàn)在算是在自動(dòng)駕駛摸爬滾打了16年,依然只是在美國(guó)的4個(gè)城市實(shí)踐,即將拓展另外2個(gè)城市。
他們的商業(yè)和投資環(huán)境,他們的公司理念還是值得欽佩和學(xué)習(xí)。未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄Advancing AI to Build the World’s Most Trusted Driver pdf - VP, Head of AI Foundations Team WaymoDriveVLM:自動(dòng)駕駛與大型視覺語言模型的融合 pdf- 理想汽車和清華大學(xué)相關(guān)人員 加入我們的知識(shí)星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。
原文標(biāo)題 : 推進(jìn) AI 打造最值得信賴的駕駛員:Waymo 在自動(dòng)駕駛模型算法方面的實(shí)踐

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?