123,123

<input id="q4swe"></input>

<blockquote id="q4swe"></blockquote>

<noframes id="q4swe"><ul id="q4swe"></ul>

<center id="q4swe"><tbody id="q4swe"></tbody></center>

<source id="q4swe"></source><bdo id="q4swe"><pre id="q4swe"></pre></bdo>
<td id="q4swe"></td>

<noscript id="q4swe"></noscript><samp id="q4swe"></samp>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺(jué) > 正文

端到端是怎么讓自動(dòng)駕駛更像老司機(jī)的？

2026-01-21 10:32

智駕最前沿

如果將自動(dòng)駕駛的發(fā)展史比作人類的學(xué)習(xí)歷程，那么在過(guò)去很長(zhǎng)一段時(shí)間里，這個(gè)“學(xué)生”其實(shí)一直都在背誦極其繁瑣的教條。這一階段的自動(dòng)駕駛系統(tǒng)使用的是模塊化架構(gòu)，它的運(yùn)行高度依賴于手寫的成千上萬(wàn)條邏輯規(guī)則。比如如果遇到行人過(guò)馬路，你就剎車；如果前面的車打左轉(zhuǎn)向燈，你就稍微減速；如果看到黃燈閃爍，你就判斷距離是否足夠停車。這種方式在邏輯簡(jiǎn)單的封閉園區(qū)或是結(jié)構(gòu)化程度極高的高速公路上或許管用，但在充滿隨機(jī)性的城市鬧市區(qū)，這套系統(tǒng)就會(huì)有些吃力。

自動(dòng)駕駛行業(yè)之所以在近兩年集體轉(zhuǎn)向“端到端”架構(gòu)，本質(zhì)上是因?yàn)榇蠹医K于意識(shí)到，真實(shí)世界的復(fù)雜程度是不可能通過(guò)人工窮舉來(lái)覆蓋的。端到端架構(gòu)的核心在于它實(shí)現(xiàn)了一種從“信號(hào)輸入”到“控制輸出”的直接映射。用通俗的話說(shuō)，它讓汽車不再是按照指令執(zhí)行程序的機(jī)器，而是變成了一個(gè)擁有“駕駛直覺(jué)”的智能體。

這種駕駛直覺(jué)是一行行敲出來(lái)的代碼決定的，而是神經(jīng)網(wǎng)絡(luò)通過(guò)觀察數(shù)百萬(wàn)小時(shí)的人類駕駛視頻，自己悟出來(lái)的肌肉記憶。特斯拉的FSD v12版本通過(guò)用一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)替換掉之前三十多萬(wàn)行復(fù)雜的C++代碼，徹底打破了傳統(tǒng)算法的上限，讓智駕表現(xiàn)出了前所未有的絲滑感。

傳統(tǒng)架構(gòu)與端到端的區(qū)別

要理解端到端到底解決了什么，我們得先知道傳統(tǒng)架構(gòu)具體有什么問(wèn)題。在傳統(tǒng)架構(gòu)中，感知模塊就像是汽車的“眼睛”，它盯著畫面看，然后把看到的障礙物轉(zhuǎn)化成一個(gè)個(gè)簡(jiǎn)單的幾何體，并給出一組坐標(biāo)，再傳給規(guī)控模塊。

但這種方式有個(gè)致命的問(wèn)題，一旦感知模塊認(rèn)定前方是一個(gè)“矩形框”，它會(huì)把這個(gè)物體背后的很多細(xì)節(jié)信息都給抹掉。比如看到一個(gè)行人正回頭看車，或者正準(zhǔn)備加速奔跑，這些細(xì)微的動(dòng)態(tài)在被簡(jiǎn)化成坐標(biāo)的過(guò)程中就消失了。規(guī)控模塊拿到的只會(huì)是這些干巴巴的、甚至可能帶有錯(cuò)誤的抽象數(shù)據(jù)，這就像是一個(gè)人蒙著眼睛聽別人轉(zhuǎn)述路況，聽到的還是經(jīng)過(guò)劣質(zhì)翻譯后的信息，決策起來(lái)自然畏手畏腳。

在端到端架構(gòu)下，數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)內(nèi)部是以高維特征的形式流動(dòng)的，沒(méi)有任何信息會(huì)被強(qiáng)行“翻譯”或“截?cái)?rdquo;。這意味著系統(tǒng)能直接感知到那些難以用語(yǔ)言定義的微妙環(huán)境，像是夕陽(yáng)照在路面上的反光、積水倒映出的虛影，或者是前方車輛剎車燈亮起的瞬間等都可以直接轉(zhuǎn)化成決策控制的依據(jù)。

模塊化與端到端自動(dòng)駕駛區(qū)別，圖片源自：網(wǎng)絡(luò)

這種“感知-決策”一體化的設(shè)計(jì)，使自動(dòng)駕駛系統(tǒng)在訓(xùn)練時(shí)不再是各個(gè)模塊自掃門前雪，而是會(huì)朝著一個(gè)終極目標(biāo)，也就是“像人類一樣平穩(wěn)安全地開車”，并進(jìn)行全局優(yōu)化。

這種全局優(yōu)化的邏輯帶來(lái)的提升是顛覆性的。在傳統(tǒng)架構(gòu)中，感知模塊報(bào)錯(cuò)可能僅僅是因?yàn)槟硞€(gè)目標(biāo)的識(shí)別率掉了百分之二，但這百分之二的錯(cuò)誤傳到規(guī)控模塊可能就觸發(fā)一次急剎。但在端到端架構(gòu)里，系統(tǒng)具備了極強(qiáng)的容錯(cuò)和“自我修復(fù)”能力，它在學(xué)習(xí)時(shí)就理解了哪些視覺(jué)特征是對(duì)駕駛結(jié)果至關(guān)重要的，哪些是可以忽略的噪聲。

以UniAD模型為例，它在一個(gè)統(tǒng)一的Transformer框架下，將目標(biāo)檢測(cè)、軌跡跟蹤、建圖和規(guī)劃等任務(wù)全整合在一起。大家在同一個(gè)BEV（鳥瞰圖）特征空間里交流，預(yù)測(cè)模塊在推算別人的路線時(shí)，會(huì)同時(shí)參考自車正打算往哪兒開，這使得自動(dòng)駕駛感知與決策過(guò)程極其高效，可以讓智駕系統(tǒng)在處理復(fù)雜的變道擠入、無(wú)保護(hù)左轉(zhuǎn)等場(chǎng)景時(shí)，表現(xiàn)得更像一個(gè)經(jīng)驗(yàn)豐富的老司機(jī)。

架構(gòu)對(duì)比維度

傳統(tǒng)模塊化架構(gòu)(Modular System)

端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)(End-to-End System)

邏輯基礎(chǔ)

基于“If-Then”的人工硬編碼規(guī)則

基于大規(guī)模人類駕駛數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)

信息損耗

模塊間通過(guò)定義接口傳輸（如坐標(biāo)、標(biāo)簽），信息丟失大

全局特征向量流動(dòng)，保留了原始傳感器的細(xì)微語(yǔ)義

長(zhǎng)尾場(chǎng)景處理

嚴(yán)重依賴補(bǔ)丁代碼，難以覆蓋邊緣案例

具備跨場(chǎng)景的泛化能力，能處理未見(jiàn)過(guò)的異常工況

優(yōu)化策略

局部?jī)?yōu)化，各模塊目標(biāo)不一致甚至沖突

以軌跡規(guī)劃為唯一終極目標(biāo)進(jìn)行全局聯(lián)合優(yōu)化

更新速度

極其緩慢，需人工調(diào)試參數(shù)并驗(yàn)證邏輯鏈條

極快，通過(guò)增加高質(zhì)量數(shù)據(jù)和算力自動(dòng)進(jìn)化

響應(yīng)時(shí)延

模塊串行處理，疊加時(shí)延高且不穩(wěn)定

單次推理周期固定，響應(yīng)時(shí)間通常在毫秒級(jí)

傳統(tǒng)架構(gòu)與端到端的區(qū)別

端到端賦予機(jī)器物理直覺(jué)

如果端到端只是簡(jiǎn)單地模仿人類的操作，那它還算不上完全的智能。想要成為真正的老司機(jī)，那一定是要能夠“預(yù)判”未來(lái)，也就是在腦子里模擬未來(lái)幾秒鐘可能發(fā)生的所有情景。在端到端技術(shù)的發(fā)展路徑中，世界模型（World Models）的加入相當(dāng)于給系統(tǒng)裝上了一個(gè)“大腦模擬器”。

這種模型不再死記硬背路面長(zhǎng)什么樣，而是通過(guò)觀察海量的視頻數(shù)據(jù)，學(xué)會(huì)現(xiàn)實(shí)世界的物理規(guī)律。它知道一個(gè)球滾出來(lái)之后大概率會(huì)有個(gè)孩子跟上來(lái)，也知道在雨天剎車距離會(huì)變長(zhǎng)。世界模型的本質(zhì)是一種生成式的人工智能，它能夠根據(jù)當(dāng)前的畫面，預(yù)測(cè)并生成出未來(lái)各種可能的演化路徑。

這種預(yù)測(cè)能力對(duì)于解決自動(dòng)駕駛最頭疼的“長(zhǎng)尾場(chǎng)景”至關(guān)重要。傳統(tǒng)的算法在遇到從未見(jiàn)過(guò)的施工工地或者奇形怪狀的交通事故現(xiàn)場(chǎng)時(shí)，會(huì)因?yàn)闆](méi)有對(duì)應(yīng)的代碼指令而直接“罷工”或是亂開。但具備世界模型的端到端系統(tǒng)，能夠基于它對(duì)物理世界的常識(shí)性理解，推斷出那些障礙物是不可逾越的。

更有意思的是，世界模型不僅能輔助決策，它還是一個(gè)極其強(qiáng)大的“數(shù)據(jù)模擬器”。在現(xiàn)實(shí)中采集極端的危險(xiǎn)場(chǎng)景成本極高且非常危險(xiǎn)，但在神經(jīng)網(wǎng)絡(luò)內(nèi)部，世界模型可以憑空創(chuàng)造出成千上萬(wàn)個(gè)符合邏輯的險(xiǎn)情場(chǎng)景，讓端到端模型在這些創(chuàng)造出的場(chǎng)景中瘋狂演練。這種從真實(shí)中提煉規(guī)律，再用規(guī)律反哺虛擬訓(xùn)練的閉環(huán)，使得自動(dòng)駕駛的進(jìn)化速度比以前單純靠實(shí)車跑里程要快上百倍。

與世界模型相輔相成的是3D占用網(wǎng)絡(luò)（Occupancy Network）。這是端到端架構(gòu)在空間感知上的另一大利器。以前的自動(dòng)駕駛系統(tǒng)習(xí)慣于把世界看成是一個(gè)個(gè)如車、人、樹等特定種類的“物體”。但這種思維方式太狹隘了，如果在路上遇到一個(gè)形狀怪異的雕塑，或者是從卡車上掉落的一個(gè)大木箱，系統(tǒng)可能因?yàn)檎J(rèn)不出它是什么而選擇無(wú)視它。

3D占用網(wǎng)絡(luò)則粗暴且有效地解決了這個(gè)問(wèn)題，它不管障礙物到底是什么，它只會(huì)把空間切碎成無(wú)數(shù)個(gè)微小的體素（Voxel），然后判斷每一個(gè)格子里到底有沒(méi)有東西。這就賦予了汽車一種“幾何直覺(jué)”，只要那個(gè)空間被占用了，無(wú)論它是什么東西，系統(tǒng)都會(huì)繞著走。這種不依賴語(yǔ)義標(biāo)簽的避障方式，極大地增強(qiáng)了端到端系統(tǒng)的安全底線，讓自動(dòng)駕駛汽車在面對(duì)千奇百怪的城市場(chǎng)景時(shí)，依然能保持良好的行駛表現(xiàn)。

端到端不得不面對(duì)的黑盒問(wèn)題

雖然端到端系統(tǒng)可以展現(xiàn)出老司機(jī)的“車感”，但它有一個(gè)不得不面對(duì)的問(wèn)題，那就是不可解釋的“黑盒”。如果傳統(tǒng)的模塊化系統(tǒng)出了事故，可以翻看日志，精準(zhǔn)地定位到故障點(diǎn)。但在一個(gè)擁有數(shù)億參數(shù)的神經(jīng)網(wǎng)絡(luò)里，方向盤往左轉(zhuǎn)一度，可能是受到多個(gè)因素的影響，沒(méi)人能說(shuō)得清到底為什么。這種“不可解釋性”是端到端落地的最大攔路虎。

為了解決這個(gè)問(wèn)題，有技術(shù)嘗試引入一種擬人的架構(gòu)設(shè)計(jì)，那就是借鑒諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼提出的“快慢系統(tǒng)”理論。在這種架構(gòu)里，端到端神經(jīng)網(wǎng)絡(luò)充當(dāng)?shù)氖?ldquo;系統(tǒng)1”，負(fù)責(zé)毫秒級(jí)的直覺(jué)反應(yīng)。而為了制衡這種直覺(jué)，又在外面套上了一個(gè)“系統(tǒng)2”，也就是基于視覺(jué)語(yǔ)言模型（VLM）或者是硬編碼規(guī)則的安全防御層。

系統(tǒng)2就像是一個(gè)坐在副駕駛的教練，它不僅能理解“別闖紅燈”、“單行道不能進(jìn)入”這些明確的符號(hào)規(guī)則，還能通過(guò)邏輯推理來(lái)判斷系統(tǒng)1的操作是否符合規(guī)范。如果端到端模型因?yàn)槟承┨卣髡`導(dǎo)做出危險(xiǎn)的動(dòng)作，系統(tǒng)2就會(huì)通過(guò)預(yù)設(shè)的物理安全規(guī)則強(qiáng)制切斷控制權(quán)，并做出安全的動(dòng)作或緊急剎停。這種“神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)上限，傳統(tǒng)規(guī)則負(fù)責(zé)下限”的策略，是目前端到端技術(shù)量產(chǎn)落地的最優(yōu)解。

順著這個(gè)邏輯看下去，端到端的進(jìn)化也正在重塑整個(gè)汽車產(chǎn)業(yè)。以前自動(dòng)駕駛團(tuán)隊(duì)里最多的是寫邏輯代碼的C++工程師，但現(xiàn)在，最核心的角色變成了數(shù)據(jù)和算力運(yùn)維專家。自動(dòng)駕駛系統(tǒng)的強(qiáng)弱不再取決于誰(shuí)寫的代碼更精妙，而取決于誰(shuí)能更高效地篩選出高質(zhì)量的駕駛視頻，誰(shuí)能搭建出規(guī)模更大的GPU訓(xùn)練集群。這種轉(zhuǎn)變，讓自動(dòng)駕駛的競(jìng)爭(zhēng)徹底變成了一場(chǎng)資源的較量。只有那些擁有百萬(wàn)級(jí)裝機(jī)量、能形成閉環(huán)數(shù)據(jù)流的企業(yè)，才能通過(guò)不斷的迭代，讓系統(tǒng)在每一次版本更新中變得越來(lái)越像一名“老司機(jī)”。

端到端落地會(huì)帶來(lái)哪些挑戰(zhàn)？

當(dāng)我們從更高維度俯瞰自動(dòng)駕駛的發(fā)展，我們就會(huì)發(fā)現(xiàn)端到端架構(gòu)其實(shí)是在嘗試解決人工智能的一個(gè)終極難題，那就是如何讓機(jī)器理解常識(shí)。像是看到路邊有皮球滾過(guò)要小心有小孩、雨天不能離大貨車太近等在人類看來(lái)是常識(shí)的場(chǎng)景，以前是需要工程師絞盡腦汁去設(shè)計(jì)邏輯條件的。

而端到端通過(guò)對(duì)海量真實(shí)數(shù)據(jù)的學(xué)習(xí)，在神經(jīng)網(wǎng)絡(luò)中沉淀出了一種“物理世界的常識(shí)”。當(dāng)這種常識(shí)積累到一定程度，系統(tǒng)就會(huì)表現(xiàn)類人的智能，它會(huì)知道應(yīng)如何禮讓行人，如何在復(fù)雜的并線中尋找空隙。這種進(jìn)化是不受人工編程限制的，它唯一的邊界就是數(shù)據(jù)的豐富度和算力的天花板。

當(dāng)然，端到端架構(gòu)對(duì)數(shù)據(jù)質(zhì)量的要求近乎苛刻，如果喂給它的是大量平庸甚至沒(méi)有借鑒性的駕駛視頻，訓(xùn)練出來(lái)的模型也只會(huì)是一個(gè)“平庸的司機(jī)”。此外，為了支撐這種超大規(guī)模模型的推理，車載芯片的內(nèi)存帶寬和算力開銷也成了必須面對(duì)的硬成本。

尤其是當(dāng)系統(tǒng)變得越來(lái)越像人時(shí)，人類社會(huì)該如何構(gòu)建一套全新的評(píng)估和定責(zé)標(biāo)準(zhǔn)？當(dāng)一個(gè)黑盒模型做出了違規(guī)操作，我們?cè)撊绾螌?duì)其進(jìn)行精準(zhǔn)的修正而又不產(chǎn)生副作用？這些問(wèn)題目前都還在探索之中。

但不可否認(rèn)的是，端到端架構(gòu)已經(jīng)為自動(dòng)駕駛指明了通往更高階智能的方向。它通過(guò)消除模塊間的信息壁壘，利用全局優(yōu)化打破了人類邏輯的上限。隨著世界模型、大語(yǔ)言模型與端到端架構(gòu)的進(jìn)一步深度融合，未來(lái)的智駕系統(tǒng)將不僅能看清路，更能“讀懂”這個(gè)復(fù)雜多變的人類世界。這種從“機(jī)器駕駛”向“類人智能駕駛”的跨越，正是端到端技術(shù)帶給我們的核心答案。

-- END --

原文標(biāo)題 : 端到端是怎么讓自動(dòng)駕駛更像老司機(jī)的？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<ul id="4e2ec"><kbd id="4e2ec"></kbd></ul>

<strike id="4e2ec"><strike id="4e2ec"></strike></strike>