技術(shù)文章:目標(biāo)檢測--CornerNet的缺陷
前言:
目標(biāo)檢測的預(yù)測框經(jīng)過了滑動(dòng)窗口、selective search、RPN、anchor based等一系列生成方法的發(fā)展,到18年開始,開始流行anchor free系列,CornerNet算不上第一篇anchor free的論文,但anchor freee的流行卻是從CornerNet開始的,其中體現(xiàn)的一些思想仍值得學(xué)習(xí)。
看過公眾號(hào)以往論文解讀文章的讀者應(yīng)該能感覺到,以往論文解讀中會(huì)有不少我自己的話來表述,文章寫得也很簡練。但這篇論文的寫作實(shí)在很好,以至于這篇解讀文章幾乎就是對(duì)論文的翻譯,幾乎沒有改動(dòng)。
論文提出了 CornerNet,這是一種新的目標(biāo)檢測方法,我們使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)將對(duì)象邊界框檢測為一對(duì)關(guān)鍵點(diǎn),即左上角和右下角。 通過將對(duì)象檢測為成對(duì)的關(guān)鍵點(diǎn),我們無需設(shè)計(jì)一組在先前單級(jí)檢測器中常用的錨框。 除了我們的新范式外,我們還引入了corner pooling,這是一種新型的池化層,可幫助網(wǎng)絡(luò)更好地定位角點(diǎn)。
實(shí)驗(yàn)表明,CornerNet 在 MS COCO 上實(shí)現(xiàn)了 42.1% 的 AP,優(yōu)于所有現(xiàn)有的單級(jí)檢測器。
關(guān)注公眾號(hào)CV技術(shù)指南,及時(shí)獲取更多計(jì)算機(jī)視覺的內(nèi)容。
論文出發(fā)點(diǎn)|anchor box的缺陷
目標(biāo)檢測中SOTA模型中一個(gè)常見組成部分是錨框,它是各種大小和縱橫比的框,用作檢測候選框。Anchor box廣泛應(yīng)用于one-stage檢測器中,可以在效率更高的情況下獲得與two-stages檢測器極具競爭力的結(jié)果。one-stage檢測器將錨框密集地放置在圖像上,并通過對(duì)錨框進(jìn)行評(píng)分并通過回歸細(xì)化其坐標(biāo)來生成最終的框預(yù)測。
但是使用錨框有兩個(gè)缺點(diǎn)。
首先,我們通常需要一組非常大的錨框,例如 在 DSSD 中超過 40k,在 RetinaNet 中超過 100k。這是因?yàn)闄z測器被訓(xùn)練來對(duì)每個(gè)錨框是否與一個(gè)ground truth框充分重疊進(jìn)行分類,并且需要大量的anchor box來確保與大多數(shù)ground truth框有足夠的重疊。結(jié)果,只有一小部分錨框會(huì)與ground truth重疊; 這會(huì)造成正負(fù)錨框之間的巨大不平衡并減慢訓(xùn)練速度。
其次,錨框的使用引入了許多超參數(shù)和設(shè)計(jì)選擇。 這些包括多少個(gè)box、多大scale和多大aspect ratios。 這種選擇主要是通過臨時(shí)啟發(fā)式進(jìn)行的,當(dāng)與多尺度體系結(jié)構(gòu)相結(jié)合時(shí)會(huì)變得更加復(fù)雜,多尺度體系即單個(gè)網(wǎng)絡(luò)在多個(gè)分辨率下進(jìn)行單獨(dú)預(yù)測,每個(gè)尺度使用不同的特征和自己的一組錨框。
methods
受到 Newell 等人提出的關(guān)聯(lián)嵌入方法的啟發(fā)。誰在多人人體姿勢估計(jì)的背景下檢測和分組關(guān)鍵點(diǎn)。論文提出了 CornerNet,這是一種新的one-stage目標(biāo)檢測方法,無需錨框。
我們將一個(gè)對(duì)象檢測為一對(duì)關(guān)鍵點(diǎn)——邊界框的左上角和右下角。我們使用單個(gè)卷積網(wǎng)絡(luò)來預(yù)測同一對(duì)象類別的所有實(shí)例的左上角的熱圖、所有右下角的熱圖以及每個(gè)檢測到的角的嵌入向量。嵌入用于對(duì)屬于同一對(duì)象的一對(duì)角進(jìn)行分組——網(wǎng)絡(luò)經(jīng)過訓(xùn)練以預(yù)測它們的相似嵌入。
這種方法極大地簡化了網(wǎng)絡(luò)的輸出并消除了設(shè)計(jì)錨框的需要。
下圖說明了方法的整體流程
CornerNet 的另一個(gè)新穎組件是corner pooling,這是一種新型的池化層,可幫助卷積網(wǎng)絡(luò)更好地定位邊界框的角點(diǎn)。 邊界框的角通常在對(duì)象之外——考慮圓形的情況以及下面圖(中)示例。
在這種情況下,不能基于局部證據(jù)來定位角。 相反,要確定像素位置是否有左上角,我們需要水平向右看對(duì)象的最上邊界,垂直向下看最左邊界。 基于這一點(diǎn),我們提出了corner pooling。
它輸入兩個(gè)特征圖; 在每個(gè)像素位置,它最大池化第一個(gè)特征圖右側(cè)的所有特征向量,最大池化第二個(gè)特征圖正下方的所有特征向量,然后將兩個(gè)合并的結(jié)果加在一起。
我們假設(shè)檢測角點(diǎn)比邊界框中心或提案更有效的兩個(gè)原因。 首先,一個(gè)box的中心可能更難定位,因?yàn)樗Q于目標(biāo)的所有 4 個(gè)邊,而定位一個(gè)角取決于 2 個(gè)邊,因此更容易,對(duì)于corner pooling更是如此,它編碼了一些關(guān)于角的定義的明確的先驗(yàn)知識(shí)。 其次,角提供了一種更有效的方法來密集離散框的空間:我們只需要 O(wh) 個(gè)角來表示 O(wh)^2 個(gè)可能的錨框。
一些細(xì)節(jié)
整體實(shí)現(xiàn)
在 CornerNet 中,我們將一個(gè)對(duì)象檢測為一對(duì)關(guān)鍵點(diǎn)——邊界框的左上角和右下角。卷積網(wǎng)絡(luò)預(yù)測兩組熱圖來表示不同對(duì)象類別的角的位置,一組用于左上角,另一組用于右下角。每組熱圖都有C個(gè)通道,C為類別數(shù)量(不含背景),每個(gè)通道是關(guān)于一個(gè)類別角點(diǎn)位置的二進(jìn)制掩碼。
該網(wǎng)絡(luò)還為每個(gè)檢測到的角點(diǎn)預(yù)測一個(gè)嵌入向量,使得來自同一對(duì)象的兩個(gè)角點(diǎn)的嵌入之間的距離很小。 為了產(chǎn)生更緊密的邊界框,網(wǎng)絡(luò)還預(yù)測偏移量以稍微調(diào)整角的位置。 使用預(yù)測的熱圖、嵌入和偏移量,我們應(yīng)用一個(gè)簡單的后處理算法來獲得最終的邊界框。
使用沙漏網(wǎng)絡(luò)作為 CornerNet 的骨干網(wǎng)絡(luò)。沙漏網(wǎng)絡(luò)之后是兩個(gè)預(yù)測模塊。一個(gè)模塊用于左上角,而另一個(gè)用于右下角。每個(gè)模塊都有自己的corner pooling模塊,用于在預(yù)測熱圖、嵌入和偏移之前從沙漏網(wǎng)絡(luò)中池化特征。 與許多其他目標(biāo)檢測器不同,我們不使用不同尺度的特征來檢測不同尺寸的物體。 我們只將這兩個(gè)模塊應(yīng)用于沙漏網(wǎng)絡(luò)的輸出。
對(duì)于每個(gè)Corner,有一個(gè)ground truth正位置,所有其他位置都是負(fù)位置。 在訓(xùn)練期間,我們不是對(duì)負(fù)位置進(jìn)行同等懲罰,而是減少對(duì)正位置半徑內(nèi)的負(fù)位置的懲罰。 這是因?yàn)橐粚?duì)錯(cuò)誤的角點(diǎn)檢測,如果它們靠近各自的ground truth位置,仍然可以產(chǎn)生一個(gè)與ground truth框充分重疊的框。 我們通過對(duì)象的大小來確定半徑,方法是確保半徑內(nèi)的一對(duì)點(diǎn)將生成一個(gè)具有至少 t IoU 的邊界框,并帶有g(shù)round truth標(biāo)注。
Corners分組
使用“pull”損失訓(xùn)練網(wǎng)絡(luò)對(duì)角點(diǎn)進(jìn)行分組,使用“push”損失來分離角點(diǎn):
Corner Pooling
預(yù)測模塊
沙漏網(wǎng)絡(luò)
CornerNet 使用沙漏網(wǎng)絡(luò)作為其骨干網(wǎng)絡(luò)。沙漏網(wǎng)絡(luò)首先被引入用于人體姿勢估計(jì)任務(wù)。它是一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),由一個(gè)或多個(gè)沙漏模塊組成。沙漏模塊首先通過一系列卷積和最大池化層對(duì)輸入特征進(jìn)行下采樣。然后通過一系列上采樣和卷積層將特征上采樣回原始分辨率。由于最大池化層中的細(xì)節(jié)丟失,因此添加了跳過層以將細(xì)節(jié)帶回上采樣特征。沙漏模塊在單個(gè)統(tǒng)一結(jié)構(gòu)中捕獲全局和局部特征。當(dāng)多個(gè)沙漏模塊堆疊在網(wǎng)絡(luò)中時(shí),沙漏模塊可以重新處理特征以捕獲更高級(jí)別的信息。這些特性也使沙漏網(wǎng)絡(luò)成為目標(biāo)檢測的理想選擇。事實(shí)上,目前很多檢測器已經(jīng)采用了類似于沙漏網(wǎng)絡(luò)的網(wǎng)絡(luò)。
結(jié)論
實(shí)驗(yàn)表明,CornerNet 在 MS COCO 上實(shí)現(xiàn)了 42.1% 的 AP,優(yōu)于所有現(xiàn)有的單級(jí)檢測器。
Corner Pooling的消融實(shí)驗(yàn)
本文來源于公眾號(hào) CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

發(fā)表評(píng)論
請輸入評(píng)論內(nèi)容...
請輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 封殺AI“照騙”,“淘寶們”終于不忍了?
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 大模型下半場:Agent時(shí)代為何更需要開源模型