自動(dòng)駕駛:ECCV2020|基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測(cè)
論文原文:RTM3D:Real-timeMonocular3DDetectionfromObject
KeypointsforAutonomousDriving
目前已有的一些 3D 檢測(cè)器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊,僅能提供四個(gè)幾何約束,這就導(dǎo)致 2D 檢測(cè)器的一點(diǎn)小錯(cuò)誤會(huì)極大的影響 3D 檢測(cè)器的效果。本文的方法通過(guò)預(yù)測(cè)圖片中物體 3D 邊界框的九個(gè)關(guān)鍵點(diǎn),利用 3D 和 2D 透視圖的幾何關(guān)系恢復(fù) 3D 空間中的尺寸、位置和方向。通過(guò)這種方法,即使關(guān)鍵點(diǎn)的估計(jì)非常嘈雜,也可以穩(wěn)定地預(yù)測(cè)對(duì)象的屬性,使我們能夠以較小的架構(gòu)獲得較快的檢測(cè)速度。訓(xùn)練的方法僅使用對(duì)象的 3D 屬性,而無(wú)需外部網(wǎng)絡(luò)或監(jiān)督數(shù)據(jù)
該方法是第一個(gè)用于單眼圖像 3D 檢測(cè)的實(shí)時(shí)系統(tǒng),同時(shí)達(dá)到了 KITTI 基準(zhǔn)的最新性能。
論文背景
3D 目標(biāo)檢測(cè)是自動(dòng)駕駛中場(chǎng)景感知和運(yùn)動(dòng)預(yù)測(cè)的基本組件,目前的 3D 檢測(cè)器都嚴(yán)重依賴于 3D 雷達(dá)掃描得到的位置信息。但基于雷達(dá)的系統(tǒng)非常昂貴而且不利于編碼現(xiàn)在的車輛形狀。而單目相機(jī)相對(duì)便宜更容易應(yīng)用在現(xiàn)實(shí)場(chǎng)景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標(biāo)檢測(cè)。
單目 3D 目標(biāo)檢測(cè)方法大致可以按照訓(xùn)練數(shù)據(jù)類型被分為兩類,一種利用復(fù)雜的特征,例如實(shí)例分割、車輛形狀先驗(yàn)甚至是深度圖在多階段融合模塊中選擇最佳方案,這些額外的特征需要額外的標(biāo)注工作來(lái)訓(xùn)練一些其他的獨(dú)立網(wǎng)絡(luò),這會(huì)消耗大量的運(yùn)算資源;另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監(jiān)督數(shù)據(jù),在這種情況下,一個(gè)直觀的想法是建立一個(gè)深度回歸網(wǎng)絡(luò)以直接預(yù)測(cè)對(duì)象的 3D 信息,由于搜索空間較大,這可能會(huì)導(dǎo)致性能瓶頸。因此最近有一些工作將 3D 盒頂點(diǎn)的幾何約束應(yīng)用于 2D 盒邊緣以細(xì)化或直接預(yù)測(cè)對(duì)象參數(shù)。但是,2D 邊界框的四個(gè)邊緣僅對(duì)恢復(fù) 3D 邊界框提供了四個(gè)約束,而 3D 邊界框的每個(gè)頂點(diǎn)可能對(duì)應(yīng)于 2D 框中的任何邊緣,這需要 4,096 個(gè)相同的計(jì)算才能得出一個(gè)結(jié)果。同時(shí),當(dāng) 2D 檢測(cè)器的預(yù)測(cè)甚至有輕微誤差時(shí),強(qiáng)烈依賴 2D 框會(huì)導(dǎo)致 3D 檢測(cè)性能急劇下降。因此,大多數(shù)這些方法都利用兩階段檢測(cè)器來(lái)確保 2D 邊界框預(yù)測(cè)的準(zhǔn)確性,這限制了檢測(cè)速度的上限。
本文提出了一個(gè)無(wú)需依賴 2D 檢測(cè)器的一階段單目 3D 檢測(cè)器。首先,通過(guò)一個(gè)單階段全卷積架構(gòu)預(yù)測(cè) 9 個(gè) 2D 關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)包括 3D 邊界框的 8 個(gè)頂點(diǎn)和中心點(diǎn)的投影點(diǎn),這 9 個(gè)關(guān)鍵點(diǎn)在 3D 邊界框上提供了 18 個(gè)幾何約束。此外,本文還提出了一個(gè)全新的用于關(guān)鍵點(diǎn)檢測(cè)的多尺度金字塔,可以通過(guò)軟加權(quán)金字塔獲得最終的關(guān)鍵點(diǎn)激活圖。給定 9 個(gè)投影點(diǎn)后,下一步是通過(guò)對(duì)象的位置、尺寸和方向等從這些 3D 點(diǎn)的角度上進(jìn)行參數(shù)化,使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式,可以準(zhǔn)確有效地生成檢測(cè)結(jié)果。作者討論了不同先驗(yàn)信息對(duì)基于關(guān)鍵點(diǎn)的方法(如尺寸、方向和距離)的影響。獲取此信息的前提條件是不要增加過(guò)多的計(jì)算,以免影響最終檢測(cè)速度。本文對(duì)這些先驗(yàn)?zāi)P瓦M(jìn)行建模,并提出了一個(gè)整體能量函數(shù)以進(jìn)一步改善 3D 估計(jì)。
本文的主要貢獻(xiàn)有以下幾點(diǎn):
1.將單目 3D 檢測(cè)轉(zhuǎn)化為關(guān)鍵點(diǎn)檢測(cè)問(wèn)題,結(jié)合了幾何約束來(lái)更準(zhǔn)確和高效的生成 3D 物體的屬性。
2.提出了一種新穎的單階段多尺度 3D 關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)可為多尺度物體提供準(zhǔn)確的投影點(diǎn)。
3.提出了一個(gè)整體能量函數(shù),可以共同優(yōu)化先驗(yàn)和 3D 對(duì)象信息。
4.根據(jù) KITTI 基準(zhǔn)進(jìn)行評(píng)估,本文是第一種僅使用圖像的實(shí)時(shí) 3D 檢測(cè)方法,與其他方法在相同的運(yùn)行時(shí)間下對(duì)比,具有更高的準(zhǔn)確性。
論文模型
關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)
本文的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測(cè)框的頂點(diǎn)及中心點(diǎn),其包括三個(gè)組成部分:骨架、關(guān)鍵點(diǎn)特征金字塔以及檢測(cè)頭,主要架構(gòu)采用了與 2D 無(wú)錨檢測(cè)器相似的一階段策略。
為了在速度和準(zhǔn)確性之間進(jìn)行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個(gè) RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對(duì)輸入進(jìn)行降采樣。ResNet-18 和 DLA-34 用于圖像分類網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過(guò)三個(gè)雙線性插值和 1×1 卷積層對(duì)瓶頸三次進(jìn)行上采樣。在上采樣層之前連接了相應(yīng)的低級(jí)特征圖,同時(shí)添加了一個(gè) 1×1 卷積層以減小通道尺寸。經(jīng)過(guò)三個(gè)上采樣層后,通道分別為 256、128、64。
圖像中的關(guān)鍵點(diǎn)在大小上沒(méi)有差異。因此,關(guān)鍵點(diǎn)檢測(cè)不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點(diǎn)特征金字塔網(wǎng)絡(luò)(KFPN),以檢測(cè)點(diǎn)空間中尺度不變的關(guān)鍵點(diǎn)。假設(shè)我們有F個(gè)尺度特征圖,我們首先調(diào)整每個(gè)大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過(guò) softmax 運(yùn)算生成軟權(quán)重,以表示每個(gè)尺度的重要性。通過(guò)線性加權(quán)獲得最終的尺度空間得分圖:
檢測(cè)頭由三個(gè)基本組件和六個(gè)可選組件組成,可以任意選擇這些組件以提高 3D 檢測(cè)的準(zhǔn)確性,而計(jì)算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點(diǎn)作為連接所有特征的主要中心 由于在截?cái)嗟那闆r下對(duì)象的 3D 投影點(diǎn)可能會(huì)超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點(diǎn)。Heatmap 定義為 M,其中 C 是目標(biāo)種類的數(shù)量,另一部分是由頂點(diǎn)和中心點(diǎn)投影出的 9 個(gè)點(diǎn) V,對(duì)于一個(gè)對(duì)象的關(guān)鍵點(diǎn),本文將回歸得到的主中心的局部偏移量 Vc 作為指標(biāo)。最接近 Vc 坐標(biāo)的 V 的關(guān)鍵點(diǎn)被作為一個(gè)對(duì)象的集合。盡管 9 個(gè)關(guān)鍵點(diǎn)的 18 個(gè)的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗(yàn)條件能夠增加更多的約束,中心偏移 M_OS,頂點(diǎn)偏移 V_OS 是 heatmap 中對(duì)每個(gè)關(guān)鍵點(diǎn)的離散誤差。
3D 目標(biāo)的維度 D 方差小容易預(yù)測(cè),本文引用基于 Multi-Bin 方法對(duì)偏航角 θ 進(jìn)行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個(gè) bin 中進(jìn)行分類,并使用 2 個(gè) bin 生成方向特征圖,同時(shí)對(duì) 3D 邊框的中心深度Z進(jìn)行回歸。最終的 loss 如下(各部分 loss 的定義參見(jiàn)原文,在此不再贅述):
3D邊框的估計(jì)
得到 9 個(gè)特征點(diǎn) kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標(biāo)是找出哪一個(gè)邊框中心點(diǎn)與 2D 關(guān)鍵點(diǎn) kp 最匹配,這能夠最小化 3D 關(guān)鍵點(diǎn)和 2D 關(guān)鍵點(diǎn)的投影損失,并將它和其他先驗(yàn)損失定義為一個(gè)非線性最小二乘優(yōu)化問(wèn)題:
其中 e_cp、e_d、e_r 是相機(jī)點(diǎn)、維度先驗(yàn)、方向先驗(yàn)的損失,從 heatmap 中提取的置信度表示為:
實(shí)驗(yàn)論文
本文在 KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
ResNet18 作為 backbone 的時(shí)候速度最快,精度已經(jīng)超過(guò)大多數(shù)甚至某些雙目方法,但仍弱于 M3D-RPN(目前不利用其它訓(xùn)練數(shù)據(jù)最好的網(wǎng)絡(luò)),當(dāng)采用 DLA-34 時(shí)速度仍然比別的方法快,而且精度超過(guò) M3D-RPN。
消融實(shí)驗(yàn)
對(duì)維度、方向、距離和關(guān)鍵點(diǎn)偏移四個(gè)可選項(xiàng)進(jìn)行了消融實(shí)驗(yàn),四個(gè)可選項(xiàng)全部使用時(shí)得到了最高的準(zhǔn)確率。
分析了關(guān)鍵點(diǎn)FPN的作用,
同時(shí)發(fā)現(xiàn) 3D 反向投影的 2D 結(jié)果要優(yōu)于直接對(duì) 2D 進(jìn)行預(yù)測(cè)。
結(jié)論
本文提出了一種用于自動(dòng)駕駛場(chǎng)景的單眼 3D 目標(biāo)檢測(cè)方法。將 3D 檢測(cè)作為關(guān)鍵點(diǎn)檢測(cè)問(wèn)題,并展示了如何通過(guò)使用關(guān)鍵點(diǎn)和幾何約束來(lái)恢復(fù) 3D 邊界框。本文提出的用于 3D 檢測(cè)的點(diǎn)檢測(cè)網(wǎng)絡(luò),可以僅使用圖像輸出 3D 框的關(guān)鍵點(diǎn)和對(duì)象的其他先驗(yàn)信息生成穩(wěn)定且準(zhǔn)確的 3D 邊界框,而無(wú)需包含獨(dú)立網(wǎng)絡(luò)和增加額外標(biāo)注數(shù)據(jù),同時(shí)可實(shí)現(xiàn)實(shí)時(shí)運(yùn)行速度。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
技術(shù)文庫(kù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【線上直播】新能源汽車熱管理行業(yè)應(yīng)用新進(jìn)展
-
精彩回顧立即查看>> 【線上直播】西門子電池行業(yè)研討會(huì)-P4B如何加速電池開(kāi)發(fā)
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【線下論壇】華邦電子與萊迪思聯(lián)合技術(shù)論壇
- 1 2025上海車展看什么?看這一篇就夠了!
- 2 關(guān)稅大戰(zhàn),汽車芯片會(huì)漲價(jià)嗎
- 3 工信部召開(kāi)智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入及軟件在線升級(jí)管理工作推進(jìn)會(huì)提的內(nèi)容,將如何影響智駕行業(yè)發(fā)展?
- 4 地平線智駕方案軟硬結(jié)合,大眾、保時(shí)捷的合作紛至沓來(lái)
- 5 高呼的“全民智駕”真的做到“全民”了嗎?
- 6 一季度汽車產(chǎn)量省份排名大洗牌!誰(shuí)在異軍突起?
- 7 奇瑞的混動(dòng)技術(shù):厚積薄發(fā),從發(fā)動(dòng)機(jī)到混動(dòng)系統(tǒng)
- 8 中國(guó)汽車發(fā)展頂層設(shè)計(jì)思路 - 萬(wàn)鋼主席2025百人會(huì)核心內(nèi)容總結(jié)
- 9 東風(fēng)+華為,還是華為借東風(fēng)?華為ADS3.0技術(shù)詳解
- 10 工信部對(duì)浮躁的智駕說(shuō)“不”