123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺(jué) > 正文

自動(dòng)駕駛中常提的模仿學(xué)習(xí)是什么？

2026-01-14 10:25

智駕最前沿

當(dāng)談及自動(dòng)駕駛模型學(xué)習(xí)時(shí)，經(jīng)常會(huì)提到模仿學(xué)習(xí)的概念。所謂模仿學(xué)習(xí)，就是模型先看別人怎么做，然后學(xué)著去做。自動(dòng)駕駛中的模仿學(xué)習(xí)，就是把人類(lèi)司機(jī)在各種路況下的行為做成范例，記錄下看到了什么和做了什么等信息，然后將這些一一對(duì)應(yīng)起來(lái)當(dāng)作訓(xùn)練數(shù)據(jù)，并訓(xùn)練出一個(gè)模型。

當(dāng)模型訓(xùn)練好以后，遇到類(lèi)似場(chǎng)景就可以嘗試輸出類(lèi)似的人類(lèi)動(dòng)作。這種學(xué)習(xí)方式不需要工程師把每一種情況的規(guī)則一條條寫(xiě)出來(lái)，也不需要設(shè)計(jì)一個(gè)復(fù)雜的獎(jiǎng)勵(lì)函數(shù)讓機(jī)器在虛擬世界里靠試錯(cuò)學(xué)會(huì)開(kāi)車(chē)，只要有質(zhì)量較好的“人類(lèi)示范”，就能把人的“駕駛風(fēng)格”灌輸?shù)侥Ｐ屠铩?/p>

模仿學(xué)習(xí)有不同的實(shí)現(xiàn)方式。最直接的叫行為克�。╞ehavior cloning），就是把專家看見(jiàn)與執(zhí)行的對(duì)應(yīng)關(guān)系作為監(jiān)督學(xué)習(xí)任務(wù)，其輸入是傳感器數(shù)據(jù)、前視圖、速度等信息，輸出是方向盤(pán)角度、油門(mén)剎車(chē)等控制量。還有一種思路是逆強(qiáng)化學(xué)習(xí)（inverse reinforcement learning），它不是直接學(xué)“做什么”，而是試圖從人類(lèi)的行為里反推出一個(gè)“潛在的目標(biāo)函數(shù)”或者偏好，再用這個(gè)目標(biāo)去訓(xùn)練模型。除此之外，還有對(duì)抗式模仿、層次化模仿等更復(fù)雜的變體，這些方法能夠在一定程度上緩解簡(jiǎn)單模仿學(xué)習(xí)在泛化能力和魯棒性上的不足。

模仿學(xué)習(xí)對(duì)自動(dòng)駕駛有什么用

在自動(dòng)駕駛這樣高風(fēng)險(xiǎn)的領(lǐng)域，讓模型在真實(shí)世界里靠“試錯(cuò)”學(xué)習(xí)顯然不現(xiàn)實(shí)。模仿學(xué)習(xí)可以利用已有的人類(lèi)駕駛數(shù)據(jù)，讓模型在安全的條件下學(xué)習(xí)“合格駕駛員”的行為模式。

對(duì)于很多常見(jiàn)場(chǎng)景，尤其是城市道路或高速路上的常規(guī)操作，模仿學(xué)習(xí)能教會(huì)車(chē)輛如何平順變道、如何與前車(chē)保持距離、如何在擁堵路段保持合理速度，這種“像人開(kāi)車(chē)”的行為將提升乘客的體驗(yàn)，并會(huì)讓社會(huì)有更高的接受度。

此外，模仿學(xué)習(xí)在工程上好上手、訓(xùn)練效率也相對(duì)更高。模仿學(xué)習(xí)本質(zhì)上是監(jiān)督學(xué)習(xí)，訓(xùn)練目標(biāo)直接、損失明確，數(shù)據(jù)處理管道成熟。因此在研發(fā)早期，以及做端到端感知-控制的探索時(shí)，模仿學(xué)習(xí)是首選方法。

模仿學(xué)習(xí)還能把多模態(tài)傳感器的信息（攝像頭、毫米波雷達(dá)、LiDAR、里程計(jì)等）合并到一個(gè)網(wǎng)絡(luò)中，直接從原始感知到控制量學(xué)習(xí)一條端到端的映射，這在某些應(yīng)用場(chǎng)景能顯著簡(jiǎn)化系統(tǒng)架構(gòu)。

模仿學(xué)習(xí)還有一個(gè)好處，就是能把“人類(lèi)的駕駛習(xí)慣”保留下來(lái)。人類(lèi)駕駛員在很多情形里會(huì)做出既安全又舒適的動(dòng)作，像是平滑的加減速、合理的避讓、符合社會(huì)駕駛習(xí)慣的決策等，都是人類(lèi)駕駛員可以輕松應(yīng)對(duì)的動(dòng)作。把這些行為灌輸?shù)侥Ｐ屠�，有助于自�?dòng)駕駛車(chē)輛在混合交通環(huán)境中更自然地與人類(lèi)駕駛者共存，從而減少被其他車(chē)輛或行人誤判的風(fēng)險(xiǎn)。

如何用模仿學(xué)習(xí)訓(xùn)練模型？

想用模仿學(xué)習(xí)訓(xùn)練模型，要先進(jìn)行采集示范數(shù)據(jù)，然后做數(shù)據(jù)清洗與標(biāo)注，接著訓(xùn)練模型并在模擬器或封閉道路上測(cè)試，最后再做在線改進(jìn)與驗(yàn)證。

采集階段不是簡(jiǎn)單地采集更多場(chǎng)景，也不是無(wú)腦地堆砌各種場(chǎng)景，而是要找到場(chǎng)景多樣且高質(zhì)量的數(shù)據(jù)，像是白天夜晚、雨雪、高架與城市擁堵、復(fù)雜交叉口等場(chǎng)景場(chǎng)景必須都覆蓋到。訓(xùn)練時(shí)可用卷積神經(jīng)網(wǎng)絡(luò)處理圖像輸入，并把時(shí)序信息通過(guò)遞歸結(jié)構(gòu)或時(shí)間窗口的方式納入，讓模型能記住短時(shí)間內(nèi)的動(dòng)態(tài)變化。

在模型上線之前，需要通過(guò)仿真和閉環(huán)測(cè)試來(lái)驗(yàn)證模型的魯棒性。單純?cè)陟o態(tài)測(cè)試集上做得好并不代表閉環(huán)駕駛也能穩(wěn)健運(yùn)行，控制策略的每一步動(dòng)作都會(huì)改變后續(xù)的狀態(tài)分布，這種分布偏移會(huì)導(dǎo)致誤差積累。

為此，要引入在線糾偏機(jī)制，如在模型駕駛時(shí)讓專家在線糾正，將這些新的“偏離狀態(tài)-專家動(dòng)作對(duì)”加入數(shù)據(jù)集繼續(xù)訓(xùn)練，像是DAgger（Dataset Aggregation，數(shù)據(jù)集聚合）就是采用的這種方法。還有技術(shù)方案中會(huì)先用模仿學(xué)習(xí)學(xué)一個(gè)“基礎(chǔ)策略”，再用強(qiáng)化學(xué)習(xí)或規(guī)則化的規(guī)劃層對(duì)其微調(diào)與約束，以增強(qiáng)對(duì)稀有或危險(xiǎn)場(chǎng)景的處理能力。

當(dāng)然，模仿學(xué)習(xí)并不等同于完全放手不設(shè)規(guī)則。為確保自動(dòng)駕駛系統(tǒng)的安全性，很多技術(shù)方案中會(huì)采用混合架構(gòu)，模仿學(xué)習(xí)負(fù)責(zé)感知-決策的快速映射，規(guī)劃層負(fù)責(zé)長(zhǎng)時(shí)間尺度的路徑規(guī)劃，規(guī)則模塊負(fù)責(zé)硬性安全約束（比如絕對(duì)剎停條件、最小車(chē)距限制等）。這種分層與混合的策略不僅可以利用模仿學(xué)習(xí)的高效性，也能通過(guò)規(guī)則化模塊彌補(bǔ)它在極端情況上的不足。

模仿學(xué)習(xí)的局限與現(xiàn)實(shí)挑戰(zhàn)

模仿學(xué)習(xí)雖好，但其存在泛化能力有限與誤差積累等問(wèn)題。模仿模型在訓(xùn)練時(shí)學(xué)到的是“在那些見(jiàn)過(guò)的狀態(tài)里該做什么”，一旦遇到訓(xùn)練集中沒(méi)有覆蓋到的罕見(jiàn)場(chǎng)景，模型將不知道應(yīng)該如何處理。尤其是在序列決策問(wèn)題中，模型自己的每一步?jīng)Q定都會(huì)改變未來(lái)觀測(cè)的分布，哪怕開(kāi)始只是輕微偏差，也可能隨著時(shí)間放大成嚴(yán)重錯(cuò)誤，這就是所謂的分布偏移或誤差累積問(wèn)題。

模仿學(xué)習(xí)主要學(xué)習(xí)專家示范的內(nèi)容，提供給模型的專家示范總希望是高質(zhì)量的且具代表性的，但人類(lèi)司機(jī)并不完美，總會(huì)存在疏忽、習(xí)慣性錯(cuò)誤或?qū)δ承﹫?chǎng)景不恰當(dāng)?shù)呐袛�。如果模型只是機(jī)械地模仿這些行為，就可能學(xué)到不良駕駛習(xí)慣。尤其對(duì)于人類(lèi)社會(huì)來(lái)說(shuō)，道德和法律層面的約束不是簡(jiǎn)單靠模仿就能學(xué)會(huì)的，如何在多方?jīng)_突情形下如何取舍、如何展現(xiàn)可辯護(hù)的決策過(guò)程等，都需要額外的規(guī)則與可解釋性的支撐。

端到端的模仿學(xué)習(xí)模型還存在內(nèi)部決策過(guò)程不透明的問(wèn)題，其安全邊界難以被嚴(yán)格界定和驗(yàn)證。對(duì)于汽車(chē)這種涉及生命財(cái)產(chǎn)安全的關(guān)鍵領(lǐng)域，監(jiān)管與認(rèn)證體系要求系統(tǒng)具備可解釋的邏輯或明確的安全保證。因此，單純依賴數(shù)據(jù)驅(qū)動(dòng)的模仿學(xué)習(xí)，在應(yīng)對(duì)復(fù)雜多變的長(zhǎng)尾場(chǎng)景時(shí)，可能面臨可驗(yàn)證性不足的挑戰(zhàn)。

要把模仿學(xué)習(xí)做得足夠魯棒，要覆蓋足夠廣的高質(zhì)量示范數(shù)據(jù)，這就帶來(lái)了采集成本高、標(biāo)注難、隱私與合規(guī)等問(wèn)題。尤其是極端天氣、罕見(jiàn)事故或復(fù)雜交互場(chǎng)景，本身就少見(jiàn)，要人工制造這些場(chǎng)景又有風(fēng)險(xiǎn)，仿真雖然能補(bǔ)充一部分，但仿真與現(xiàn)實(shí)間的差距也會(huì)影響模型遷移效果，因此，對(duì)于模仿學(xué)習(xí)來(lái)說(shuō)，數(shù)據(jù)方面的挑戰(zhàn)不容忽視。

最后的話

模仿學(xué)習(xí)為自動(dòng)駕駛系統(tǒng)提供了實(shí)現(xiàn)擬人化駕駛行為的重要基礎(chǔ)，但其數(shù)據(jù)驅(qū)動(dòng)的黑箱特性在安全驗(yàn)證和長(zhǎng)尾場(chǎng)景泛化方面存在局限。想應(yīng)用好模仿學(xué)習(xí)，就要將模仿學(xué)習(xí)置于一個(gè)包含規(guī)則約束、規(guī)劃模塊及多重安全冗余的混合系統(tǒng)架構(gòu)中，從而確保其在發(fā)揮其高效學(xué)習(xí)優(yōu)勢(shì)的同時(shí)，更能確保系統(tǒng)的整體行為符合可解釋、可驗(yàn)證的安全規(guī)范。

-- END --

原文標(biāo)題 : 自動(dòng)駕駛中常提的模仿學(xué)習(xí)是什么？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷(xiāo)售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷(xiāo)售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門(mén)市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<center id="qqw8c"></center>

<del id="qqw8c"></del>

<code id="qqw8c"><source id="qqw8c"></source></code>