智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識別到大模型上車
智能駕駛自動駕駛經(jīng)歷過去幾年的迅猛發(fā)展,技術(shù)底層雖然確立人工智能AI賦能發(fā)展的根基,但是方法路徑卻經(jīng)歷了巨大的變化。
例如,當(dāng)年的感知數(shù)據(jù)標(biāo)注量之爭,2022年左右的HD高精地圖之爭,再到2023年的真假無圖開城大戰(zhàn),最后到2024端到端智能駕駛大模型上車。也引發(fā)了巨多的智能駕駛熱詞,數(shù)據(jù)標(biāo)注,地圖,BEV,Transformer,有無圖智駕,大模型上車等等。回過頭來看,我們在討論這些東西的時(shí)候,僅僅看到的是表面,然后基于表面再添加自己認(rèn)知去解讀。
但其實(shí)智能駕駛終究只是人工智能AI的應(yīng)用端,他的發(fā)展是跟隨人工智能的發(fā)展落地,所以看智能駕駛的發(fā)展必須緊盯AI的發(fā)展。最近在人工智能領(lǐng)域把控AI三大件中的重要的兩大件的英偉達(dá),在其GTC上分享了英偉達(dá)對于智能駕駛架構(gòu)發(fā)展的理解,本文將基于其理論整理和分析智能駕駛架構(gòu)的發(fā)展歷史以及趨勢。值得智能汽車產(chǎn)業(yè)內(nèi)管理,產(chǎn)品,技術(shù)人士,投資,科技愛好者了解和學(xué)習(xí),把握智能汽車特別是智能駕駛發(fā)展脈絡(luò)。智能駕駛技術(shù)架構(gòu)的發(fā)展可以分為四個(gè)部分:
AV1.0 - 目標(biāo)物識別
AV1.x - BEV+Transformer+......
AV2.0 - E2E大模型
AV2.0 - E2E大模型+LVM圖像語言模型
AV1.0 - 目標(biāo)物識別采用經(jīng)典的智能駕駛步驟,感知,定位,融合跟蹤,預(yù)測,規(guī)劃,執(zhí)行。在智能駕駛開發(fā)中也是嚴(yán)格劃定每個(gè)模塊的邊界,各司其職。
這時(shí),AI人工智能主要用在目標(biāo)物識別感知方面,以及少部分預(yù)測方面。感知主要是基于視覺的目標(biāo)物的識別,所以數(shù)據(jù)標(biāo)注量決定了感知的精準(zhǔn)度;預(yù)測采用決策樹等算法。規(guī)控算法主要采用經(jīng)典PID;九渲弥饕壳耙曈X攝像頭感知目標(biāo)物,所以大家看到的5V(5 vison 5個(gè)攝像頭,其中4個(gè)是環(huán)視)方案,大都屬于此類。
新勢力第一代智能駕駛都采用這類智能駕駛架構(gòu),例如,Tesla 特斯拉以及國內(nèi)新勢力 NIO 蔚來,Xpeng 小鵬都是采用Mobileye提供感知的方式實(shí)現(xiàn),在國內(nèi)新勢力以及眾多其他推出的第一代高速領(lǐng)航輔助(什么是領(lǐng)航輔助點(diǎn)擊淺談高階智能駕駛-領(lǐng)航輔助的技術(shù)與發(fā)展)都是基于此類感知方式配合HD高精地圖實(shí)現(xiàn)。但很快隨著智能駕駛功能以及覆蓋ODD的需求不斷擴(kuò)大,這種分布式模塊的智能駕駛架構(gòu),由于模塊復(fù)雜,嚴(yán)重依賴高精地圖,所以無法規(guī)模化,慢慢被主流拋棄。
AV1.x - BEV+Transformer+......當(dāng)國內(nèi),在頭痛數(shù)據(jù)標(biāo)注量,且依然無法破局智能駕駛場景長尾場景時(shí)候;在討論怎么破局HD高精地圖的約束等無法規(guī);囊蜃訒r(shí)候;馬斯克的2021 AI day給行業(yè)透露了他技術(shù)的關(guān)鍵詞:鳥瞰圖(BEV):BEV主要基于車輛360視覺覆蓋的攝像頭,提供了一個(gè)從上方俯瞰車輛周圍環(huán)境的視角,它還可以合成多個(gè)傳感器(如攝像頭、雷達(dá)、激光雷達(dá)等)的數(shù)據(jù)來生成一個(gè)全面的視圖。這個(gè)視圖不僅包括車輛周圍的物體,如其他車輛、行人、障礙物等,還包括它們在三維空間中的位置信息。Transformer模型:Transformer是一種深度學(xué)習(xí)架構(gòu),最初用于自然語言處理(NLP)領(lǐng)域,因其強(qiáng)大的序列處理和關(guān)系建模能力而聞名。
在自動駕駛中,Transformer被用來處理BEV數(shù)據(jù),以理解和預(yù)測不同物體之間的動態(tài)關(guān)系和交互;谶@兩個(gè)關(guān)鍵技術(shù)因子,智能駕駛實(shí)現(xiàn)了三維空間感知加上時(shí)間維度的4D感知。在智能駕駛系統(tǒng)中,這意味著車輛不僅能夠?qū)崟r(shí)地檢測和跟蹤周圍的物體(3D感知),還能夠預(yù)測這些物體在未來一段時(shí)間內(nèi)的狀態(tài)和行為(時(shí)間維度)。這種4維感知能力對于自動駕駛汽車在復(fù)雜和動態(tài)的交通環(huán)境中進(jìn)行安全導(dǎo)航至關(guān)重要。
2022年特斯拉AI day又帶來了Occupancy占用網(wǎng)格Occupancy可以直接在BEV空間中完成動態(tài)障礙物的3D檢測和靜態(tài)障礙物的識別建模;提供直接在3D空間中感知占用關(guān)系,為系統(tǒng)規(guī)劃提供可行駛空間。當(dāng)然占用網(wǎng)格挺吃算力,國內(nèi)目前有通過激光雷達(dá)等其他傳感器方式實(shí)現(xiàn),例如之前文章《遙遙領(lǐng)先的華為智駕硬件以及背后的GOD和RCR算法》講到的GOD。有了對于環(huán)境感知的全面理解,但是交通的另外兩個(gè)層面: 其他交通參與者的行動軌跡以及道路之間的拓?fù)潢P(guān)系成了智能駕駛的難點(diǎn)。
這個(gè)時(shí)候Live Vector Space Topological Relationships"(實(shí)時(shí)向量空間拓?fù)潢P(guān)系)登場了實(shí)時(shí)向量空間:實(shí)時(shí)向量空間是指自動駕駛汽車使用傳感器數(shù)據(jù)(如攝像頭、雷達(dá)、激光雷達(dá)等)實(shí)時(shí)生成的環(huán)境表示。這些數(shù)據(jù)被轉(zhuǎn)換成向量形式,每個(gè)向量代表環(huán)境中的一個(gè)特定對象或特征,例如其他車輛、行人、道路標(biāo)志或道路邊界。拓?fù)潢P(guān)系:拓?fù)潢P(guān)系描述了環(huán)境中對象之間的相對位置和相互關(guān)系。在自動駕駛的上下文中,這包括了解車輛與其他車輛、行人以及道路基礎(chǔ)設(shè)施之間的空間關(guān)系。例如,一個(gè)車輛可能在另一個(gè)車輛的前面、后面或側(cè)面,而這些關(guān)系對于規(guī)劃安全行駛路徑至關(guān)重要。
這樣,智能駕駛汽車可以實(shí)時(shí)處理這些拓?fù)潢P(guān)系,快速做出決策和反應(yīng),實(shí)時(shí)調(diào)整其規(guī)劃和控制策略以應(yīng)對動態(tài)變化。通過理解實(shí)時(shí)向量空間中的拓?fù)潢P(guān)系,智能駕駛汽車可以更準(zhǔn)確地預(yù)測其他道路使用者的行為,從而進(jìn)行有效的導(dǎo)航和決策制定。通過配合SD普通導(dǎo)航信息,可以決策車輛的路線跟隨。例如,如果一個(gè)車輛正在靠近并可能在交叉路口處轉(zhuǎn)彎,自動駕駛汽車需要預(yù)測這一行為并相應(yīng)地調(diào)整速度和行駛路徑。有了環(huán)境的感知以及交通道路的拓?fù)潢P(guān)系,基本上智能駕駛汽車完成了對World模型的構(gòu)建,這個(gè)時(shí)候需要規(guī)控出馬了。Joint Prediction & Planning Network(聯(lián)合預(yù)測與規(guī)劃網(wǎng)絡(luò))傳統(tǒng)的自動駕駛系統(tǒng)可能會將感知、預(yù)測和規(guī)劃作為分離的模塊來處理。然而,"Joint Prediction & Planning Network" 采用了一種集成的方法,將預(yù)測和規(guī)劃結(jié)合在一個(gè)統(tǒng)一的框架中。
這樣做的好處是能夠更流暢地處理從感知到行動的轉(zhuǎn)換,并提高系統(tǒng)的整體效率和性能。聯(lián)合預(yù)測與規(guī)劃算法是一種基于 Transformer 的架構(gòu),通過學(xué)習(xí)人類駕駛以及強(qiáng)化學(xué)習(xí)(RL)來實(shí)現(xiàn)。當(dāng)前國內(nèi)量產(chǎn)的主流智能駕駛架構(gòu)都或多或少采用以上方法和技術(shù)。AV2.0 - E2E大模型隨著生成式人工智能GPT的橫空出世,端到端模型也搬上車了。端到端模型,基本就是融合所有的AI model形成一個(gè)輸入駕駛環(huán)境,輸出車控的轉(zhuǎn)向,剎車加速等信號。
至于它的內(nèi)部結(jié)構(gòu),你可以把它當(dāng)作一個(gè)黑盒,它能夠記住你講過的所有場景,所有case以及你告訴他針對以上場景和case的反饋。在實(shí)際自動駕駛中它會基于記憶的場景和反饋去實(shí)施。這個(gè)和當(dāng)前的 ChatGPT 類似,它只能準(zhǔn)確回答他知道的東西,不知道的問題,GPT可能會一本正經(jīng)的說胡話,但如果自動駕駛汽車沒見過的場景,自動駕駛隨意開,那么就會造成安全事故。所以問題來了,你必須要去喂這個(gè)大模型,足夠多的數(shù)據(jù),讓它學(xué)會應(yīng)對所有場景的駕駛。自動駕駛交通信息數(shù)據(jù)獲取有兩種方法:
第一種方法是實(shí)際道路采集車采集。
第二種方法是基于實(shí)際場景采集的數(shù)據(jù)虛擬場景。自動駕駛端到端算法基于上面的數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)英偉達(dá)的 GTC 自駕駛車輛的演講:
智能駕駛大模型的參數(shù)的大小,1年之后會增加3倍,2年之后會增加7倍,3年之后增加13倍;
智能駕駛大模型訓(xùn)練的數(shù)據(jù)大小,1年之后會增加4倍,2年之后增加8倍,3年之后增加17倍。
算力當(dāng)前L2+的模型訓(xùn)練需要8000塊GPU,如果是基礎(chǔ)的智能駕駛大模型的訓(xùn)練算力需要24000塊GPU,標(biāo)準(zhǔn)的需要40000塊,最多的要高達(dá)80000萬塊。
所以,大模型上車智能駕駛,主要是對于數(shù)據(jù)以及算力的渴求。數(shù)據(jù)以及算力為王。
AV2.0 - E2E大模型+VLM視覺語言模型這或許就是輪回了,輪回到當(dāng)年基于目標(biāo)物識別的感知,數(shù)據(jù)標(biāo)注量。
如何解決?英偉達(dá)拋出行業(yè)目前在做的添加 VLM (Vison Language Model) 方法。
視覺語言模型是一種結(jié)合了圖像和文本處理能力的機(jī)器學(xué)習(xí)模型,可以理解和解釋圖像與文本之間的關(guān)聯(lián),并根據(jù)圖像生成準(zhǔn)確、生動的自然語言描述。這種模型通過分析圖像內(nèi)容和上下文來生成相關(guān)的文字描述,為計(jì)算機(jī)賦予了更接近人類的視覺理解能力。例如我們之前文章《探秘美國加州自動駕駛路試:豪橫競逐、勤奮探索與技術(shù)挑戰(zhàn)》中講到的Ghost以及英國的Wayve應(yīng)該都采用類似的技術(shù),識別某個(gè)場景時(shí)候,通過視覺語言模型解讀當(dāng)前的環(huán)境,然后結(jié)合語言知識輔助自動駕駛。
打個(gè)比方,視覺語言模型識別到當(dāng)前智能駕駛為學(xué)校放學(xué)期間,那么自動駕駛自然會明白這個(gè)場景需要更加謹(jǐn)慎的駕駛,從而可以更加人性的駕駛。寫在最后 - 端到端大模型智能駕駛的挑戰(zhàn)大模型智能駕駛,也將自動駕駛汽車帶回GPT一樣的困頓:數(shù)據(jù),數(shù)據(jù),算力,算力。但自動駕駛汽車關(guān)系到人類的安全,這就更需要大模型實(shí)現(xiàn)可靠、安全和高效,基于這些大模型的智能駕駛系統(tǒng),將面臨以下兩個(gè)主要挑戰(zhàn):可解釋性和透明度:復(fù)雜的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,這些模型往往被認(rèn)為是“黑箱”操作,因?yàn)樗鼈兊臎Q策過程難以解釋和理解。在自動駕駛汽車中,這種不透明性可能導(dǎo)致安全問題,因?yàn)楫?dāng)發(fā)生錯(cuò)誤或事故時(shí),難以確定原因并采取糾正措施。此外,可解釋性對于建立用戶信任、滿足監(jiān)管要求以及在法律糾紛中證明決策過程是合理的也非常關(guān)鍵。
資源和計(jì)算效率:深度學(xué)習(xí)模型和算法通常需要大量的計(jì)算資源進(jìn)行訓(xùn)練和推理。這不僅增加了成本,還可能導(dǎo)致能源消耗和環(huán)境影響的增加。在自動駕駛汽車中,這種資源密集型的計(jì)算需求需要通過優(yōu)化算法和硬件設(shè)計(jì)來解決,以實(shí)現(xiàn)高性能的同時(shí)保持能效。此外,隨著模型的不斷更新和迭代,如何有效地管理和存儲這些大型模型和相關(guān)數(shù)據(jù)也是一個(gè)挑戰(zhàn)。但不管如何,人工智能高速發(fā)展下的智能駕駛正在迅猛發(fā)展,發(fā)展以及技術(shù)能夠解決所有問題。
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
introduce autonomous vehicles - 英偉達(dá)
GAIA-1: A Generative World Model for Autonomous Driving - wayve
原文標(biāo)題 : 智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識別到大模型上車
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
技術(shù)文庫
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【線上直播】新能源汽車熱管理行業(yè)應(yīng)用新進(jìn)展
-
精彩回顧立即查看>> 【線上直播】西門子電池行業(yè)研討會-P4B如何加速電池開發(fā)
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 【線下論壇】華邦電子與萊迪思聯(lián)合技術(shù)論壇
推薦專題
- 1 2025上海車展看什么?看這一篇就夠了!
- 2 關(guān)稅大戰(zhàn),汽車芯片會漲價(jià)嗎
- 3 工信部召開智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入及軟件在線升級管理工作推進(jìn)會提的內(nèi)容,將如何影響智駕行業(yè)發(fā)展?
- 4 地平線智駕方案軟硬結(jié)合,大眾、保時(shí)捷的合作紛至沓來
- 5 高呼的“全民智駕”真的做到“全民”了嗎?
- 6 一季度汽車產(chǎn)量省份排名大洗牌!誰在異軍突起?
- 7 奇瑞的混動技術(shù):厚積薄發(fā),從發(fā)動機(jī)到混動系統(tǒng)
- 8 中國汽車發(fā)展頂層設(shè)計(jì)思路 - 萬鋼主席2025百人會核心內(nèi)容總結(jié)
- 9 東風(fēng)+華為,還是華為借東風(fēng)?華為ADS3.0技術(shù)詳解
- 10 工信部對浮躁的智駕說“不”