123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺 > 正文

如何構(gòu)建適合自動(dòng)駕駛的世界模型？

2026-02-25 09:32

智駕最前沿

世界模型經(jīng)歷了系統(tǒng)動(dòng)力學(xué)階段（1960年～2000年）、認(rèn)知科學(xué)階段（2001年～2017年）、深度學(xué)習(xí)階段（2018年至今），但將其應(yīng)用到自動(dòng)駕駛汽車上，還是近幾年才提出的。那世界模型是自動(dòng)駕駛落地的正解嗎？

什么是世界模型？

世界模型對(duì)于自動(dòng)駕駛汽車來說，更像是給汽車大腦里繪制一張地圖，可以將環(huán)境的現(xiàn)狀和未來可能的演變都表示出來，讓自動(dòng)駕駛系統(tǒng)不只是“看見當(dāng)下”，還能“想一想接下來可能發(fā)生什么”。

簡單理解就是，世界模型不僅可以讓自動(dòng)駕駛汽車知道哪里有車道、紅綠燈和障礙物，更可以預(yù)測這些障礙物的未來變化，這對(duì)于確保自動(dòng)駕駛系統(tǒng)安全，是非常重要的。

世界模型能夠?qū)鞲衅鳎ㄈ鐢z像頭、雷達(dá)、激光雷達(dá)和車載定位系統(tǒng)等）采集的原始觀測數(shù)據(jù)，轉(zhuǎn)化為一種低維、抽象的“隱狀態(tài)”（latent state）作為內(nèi)部表示。

模型學(xué)習(xí)該隱狀態(tài)隨時(shí)間演變的規(guī)律（即動(dòng)力學(xué)），并基于此進(jìn)行預(yù)測或規(guī)劃。世界模型可以是顯式的物理模型或概率模型，也可以是基于學(xué)習(xí)得到的神經(jīng)網(wǎng)絡(luò)模型；它不僅可以用于直接回放未來場景（仿真模擬），也可以僅生成下一時(shí)刻的概率分布以輔助決策。

世界模型在自動(dòng)駕駛中的核心作用

對(duì)于自動(dòng)駕駛系統(tǒng)來說，世界模型可以應(yīng)用在預(yù)測、規(guī)劃與驗(yàn)證等三個(gè)方面。預(yù)測是世界模型最直觀的用途，傳統(tǒng)感知可以把周圍物體識(shí)別出來并定位，但這只是“靜態(tài)”信息。

世界模型通過學(xué)習(xí)交通參與者的行為模式和場景的動(dòng)力學(xué)，能夠給出更長時(shí)域的、多步的預(yù)測。如可以在十幾秒的時(shí)間尺度上，判斷騎著自行車的如是否會(huì)靠近路口，或一輛并線的車是否會(huì)與本車發(fā)生交叉軌跡等。

這樣的預(yù)測不是簡單的勻速延伸，而是包含了對(duì)意圖、交互和環(huán)境約束的理解。

規(guī)劃需要評(píng)估不同動(dòng)作的后果，選擇既安全又舒適的軌跡，是規(guī)劃的主要目的。世界模型可以依托內(nèi)置的“模擬環(huán)境”，把候選軌跡在模型里“演練”幾次，比較它們在未來幾秒內(nèi)的風(fēng)險(xiǎn)和收益。

比起只靠規(guī)則或短時(shí)預(yù)測，這種基于世界模型的規(guī)劃更能處理如窄路會(huì)車、密集并線或不守規(guī)則的交通參與者等復(fù)雜的多主體交互場景。它還能幫助車輛做出更保守或更激進(jìn)的策略選擇，并把不確定性帶進(jìn)決策中。

訓(xùn)練和驗(yàn)證自動(dòng)駕駛系統(tǒng)需要大量場景、尤其是罕見或危險(xiǎn)場景。真實(shí)世界里采集這些場景不僅昂貴而且很危險(xiǎn)。

世界模型可以生成高質(zhì)量的合成場景或作為數(shù)字孿生的一部分，用來做大規(guī)模的虛擬測試。通過在模型中反復(fù)模擬，就可以發(fā)現(xiàn)自動(dòng)駕駛系統(tǒng)在長尾場景下的弱點(diǎn)，避免把危險(xiǎn)行為部署到實(shí)車。

世界模型如何被構(gòu)建？

要讓模型有“想象未來”的能力，一定要喂給它大量合適的數(shù)據(jù)。自動(dòng)駕駛的世界模型可以依托攝像頭提供豐富的視覺細(xì)節(jié)，激光雷達(dá)給出精確的三維幾何信息，毫米波雷達(dá)對(duì)惡劣天氣更魯棒，車載定位和CAN總線送來車輛自身狀態(tài)等數(shù)據(jù)進(jìn)行學(xué)習(xí)。

把這些數(shù)據(jù)融合后，模型要學(xué)會(huì)抽取有用的表示，這一步叫表示學(xué)習(xí)。一個(gè)好的表示不僅可以保留對(duì)決策重要的細(xì)節(jié)（例如相對(duì)速度、可通過空間），還能壓縮冗余信息，方便后續(xù)預(yù)測和規(guī)劃使用。

表示之后是要進(jìn)行動(dòng)力學(xué)建模，也就是學(xué)習(xí)隱狀態(tài)如何隨時(shí)間變化。這里有兩類主流做法。

一類是基于物理或圖模型的顯式方法，通過寫出規(guī)則或物理方程來描述車輛與行人的運(yùn)動(dòng)，再把觀測通過濾波器或貝葉斯推斷與這些模型結(jié)合。顯式方法好處是可解釋、易于驗(yàn)證，但面對(duì)復(fù)雜的人類行為時(shí)往往力不從心。

另一類是端到端學(xué)習(xí)的方式，使用循環(huán)神經(jīng)網(wǎng)絡(luò)、變分自編碼器或近期流行的時(shí)序Transformer來直接學(xué)習(xí)從過去觀測到未來隱狀態(tài)的映射。學(xué)習(xí)型方法在復(fù)雜交互上更有表現(xiàn)力，但需要大量訓(xùn)練數(shù)據(jù)和注意不確定性的表達(dá)。

但無論采用哪種架構(gòu)，不確定性建模都非常關(guān)鍵。

世界不是確定的，行人會(huì)猶豫、司機(jī)會(huì)突然變道。把預(yù)測做成帶概率的形式（例如把未來位置用概率分布表示，或生成若干可能的未來軌跡并給出置信度）能讓決策器更穩(wěn)健。把因果推理或意圖推斷融入世界模型，不僅可以預(yù)測位置，還能推斷“為什么會(huì)這樣”，這對(duì)處理前所未有的情況很重要。

實(shí)際應(yīng)用中的幾個(gè)典型場景

一直都說概念，那世界模型對(duì)于自動(dòng)駕駛的具體應(yīng)用場景有哪些？可以想象一下，若車輛右側(cè)有一輛停著的貨車，貨車后面可能有行人準(zhǔn)備穿行。

單純靠感知可能看不到那名行人，但世界模型可以結(jié)合道路環(huán)境、過往行人出現(xiàn)的位置規(guī)律以及路邊停放車輛的用途，給出“可能有人從后面出來”的預(yù)測，從而促使決策器放慢速度并給出預(yù)留空間。

在高速并道時(shí)，兩輛車互相示意并線的行為充滿著博弈意味。世界模型這時(shí)候就能觀察雙方的速度與加速度變化、轉(zhuǎn)向幅度等，估計(jì)對(duì)方的意圖并預(yù)測多個(gè)可能的并線結(jié)果，從而選擇一種在時(shí)間和空間上更安全的并線策略，或者選擇先放慢再并線。

在施工、臨時(shí)交通指引或其他異常標(biāo)志的情況下，規(guī)則驅(qū)動(dòng)的系統(tǒng)容易出錯(cuò)。世界模型可以把臨時(shí)的交通錐、施工車與交通參與者的行為模式聯(lián)系起來，判斷這是一個(gè)臨時(shí)改道的道路，并在短時(shí)內(nèi)學(xué)習(xí)到新的可行策略，而不是盲目遵循過往的規(guī)則。

最后的話

把世界模型放在自動(dòng)駕駛的全局來理解，它的核心價(jià)值是把現(xiàn)時(shí)感知和未來決策連接起來。其不是簡單的把感知結(jié)果當(dāng)作事實(shí)，而是在內(nèi)心（模型）里構(gòu)建一個(gè)短期可運(yùn)行的“虛擬世界”，并在這個(gè)虛擬世界里反復(fù)試錯(cuò)、評(píng)估風(fēng)險(xiǎn)、選擇動(dòng)作。這樣做能顯著提升系統(tǒng)對(duì)復(fù)雜交互場景、遮擋、長尾事件的處理能力，也能為離線的大規(guī)模驗(yàn)證提供重要工具。

-- END --

原文標(biāo)題 : 如何構(gòu)建適合自動(dòng)駕駛的世界模型？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网