論文:基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測(cè)
論文原文:RTM3D:Real-timeMonocular3DDetectionfromObject
KeypointsforAutonomousDriving
目前已有的一些 3D 檢測(cè)器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊,僅能提供四個(gè)幾何約束,這就導(dǎo)致 2D 檢測(cè)器的一點(diǎn)小錯(cuò)誤會(huì)極大的影響 3D 檢測(cè)器的效果。本文的方法通過(guò)預(yù)測(cè)圖片中物體 3D 邊界框的九個(gè)關(guān)鍵點(diǎn),利用 3D 和 2D 透視圖的幾何關(guān)系恢復(fù) 3D 空間中的尺寸、位置和方向。通過(guò)這種方法,即使關(guān)鍵點(diǎn)的估計(jì)非常嘈雜,也可以穩(wěn)定地預(yù)測(cè)對(duì)象的屬性,使我們能夠以較小的架構(gòu)獲得較快的檢測(cè)速度。訓(xùn)練的方法僅使用對(duì)象的 3D 屬性,而無(wú)需外部網(wǎng)絡(luò)或監(jiān)督數(shù)據(jù)。該方法是第一個(gè)用于單眼圖像 3D 檢測(cè)的實(shí)時(shí)系統(tǒng),同時(shí)達(dá)到了 KITTI 基準(zhǔn)的最新性能。代碼將在 https://github.com/Banconxuan/RTM3D 上發(fā)布。
論文背景
3D 目標(biāo)檢測(cè)是自動(dòng)駕駛中場(chǎng)景感知和運(yùn)動(dòng)預(yù)測(cè)的基本組件,目前的 3D 檢測(cè)器都嚴(yán)重依賴于 3D 雷達(dá)掃描得到的位置信息。但基于雷達(dá)的系統(tǒng)非常昂貴而且不利于編碼現(xiàn)在的車(chē)輛形狀。而單目相機(jī)相對(duì)便宜更容易應(yīng)用在現(xiàn)實(shí)場(chǎng)景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標(biāo)檢測(cè)。
單目 3D 目標(biāo)檢測(cè)方法大致可以按照訓(xùn)練數(shù)據(jù)類型被分為兩類,一種利用復(fù)雜的特征,例如實(shí)例分割、車(chē)輛形狀先驗(yàn)甚至是深度圖在多階段融合模塊中選擇最佳方案,這些額外的特征需要額外的標(biāo)注工作來(lái)訓(xùn)練一些其他的獨(dú)立網(wǎng)絡(luò),這會(huì)消耗大量的運(yùn)算資源;另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監(jiān)督數(shù)據(jù),在這種情況下,一個(gè)直觀的想法是建立一個(gè)深度回歸網(wǎng)絡(luò)以直接預(yù)測(cè)對(duì)象的 3D 信息,由于搜索空間較大,這可能會(huì)導(dǎo)致性能瓶頸。因此最近有一些工作將 3D 盒頂點(diǎn)的幾何約束應(yīng)用于 2D 盒邊緣以細(xì)化或直接預(yù)測(cè)對(duì)象參數(shù)。但是,2D 邊界框的四個(gè)邊緣僅對(duì)恢復(fù) 3D 邊界框提供了四個(gè)約束,而 3D 邊界框的每個(gè)頂點(diǎn)可能對(duì)應(yīng)于 2D 框中的任何邊緣,這需要 4,096 個(gè)相同的計(jì)算才能得出一個(gè)結(jié)果。同時(shí),當(dāng) 2D 檢測(cè)器的預(yù)測(cè)甚至有輕微誤差時(shí),強(qiáng)烈依賴 2D 框會(huì)導(dǎo)致 3D 檢測(cè)性能急劇下降。因此,大多數(shù)這些方法都利用兩階段檢測(cè)器來(lái)確保 2D 邊界框預(yù)測(cè)的準(zhǔn)確性,這限制了檢測(cè)速度的上限。
本文提出了一個(gè)無(wú)需依賴 2D 檢測(cè)器的一階段單目 3D 檢測(cè)器。首先,通過(guò)一個(gè)單階段全卷積架構(gòu)預(yù)測(cè) 9 個(gè) 2D 關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)包括 3D 邊界框的 8 個(gè)頂點(diǎn)和中心點(diǎn)的投影點(diǎn),這 9 個(gè)關(guān)鍵點(diǎn)在 3D 邊界框上提供了 18 個(gè)幾何約束。此外,本文還提出了一個(gè)全新的用于關(guān)鍵點(diǎn)檢測(cè)的多尺度金字塔,可以通過(guò)軟加權(quán)金字塔獲得最終的關(guān)鍵點(diǎn)激活圖。給定 9 個(gè)投影點(diǎn)后,下一步是通過(guò)對(duì)象的位置、尺寸和方向等從這些 3D 點(diǎn)的角度上進(jìn)行參數(shù)化,使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式,可以準(zhǔn)確有效地生成檢測(cè)結(jié)果。作者討論了不同先驗(yàn)信息對(duì)基于關(guān)鍵點(diǎn)的方法(如尺寸、方向和距離)的影響。獲取此信息的前提條件是不要增加過(guò)多的計(jì)算,以免影響最終檢測(cè)速度。本文對(duì)這些先驗(yàn)?zāi)P瓦M(jìn)行建模,并提出了一個(gè)整體能量函數(shù)以進(jìn)一步改善 3D 估計(jì)。
本文的主要貢獻(xiàn)有以下幾點(diǎn):
1.將單目 3D 檢測(cè)轉(zhuǎn)化為關(guān)鍵點(diǎn)檢測(cè)問(wèn)題,結(jié)合了幾何約束來(lái)更準(zhǔn)確和高效的生成 3D 物體的屬性。
2.提出了一種新穎的單階段多尺度 3D 關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)可為多尺度物體提供準(zhǔn)確的投影點(diǎn)。
3.提出了一個(gè)整體能量函數(shù),可以共同優(yōu)化先驗(yàn)和 3D 對(duì)象信息。
4.根據(jù) KITTI 基準(zhǔn)進(jìn)行評(píng)估,本文是第一種僅使用圖像的實(shí)時(shí) 3D 檢測(cè)方法,與其他方法在相同的運(yùn)行時(shí)間下對(duì)比,具有更高的準(zhǔn)確性。
論文模型

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 封殺AI“照騙”,“淘寶們”終于不忍了?
- 9 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 地平線自動(dòng)駕駛方案解讀