目標(biāo)檢測二十年間那些事兒:加速與優(yōu)化
特征檢測優(yōu)化
特征表示的質(zhì)量是目標(biāo)檢測的關(guān)鍵。近年來,許多研究人員在一些最新引擎的基礎(chǔ)上,進(jìn)一步提高了圖像特征的質(zhì)量,其中最重要的兩組方法是:1) 特征融合;2) 學(xué)習(xí)具有較大接受域的高分辨率特征。
特征融合
不變性(Invariance)和同變性(equivariance)是圖像特征表達(dá),同時(shí)也是目標(biāo)檢測任務(wù)兩個(gè)需要考慮的要素。分類任務(wù)中比較看重不變性,即不論物體出現(xiàn)在圖像中的什么位置,都能識別出來,旨在學(xué)習(xí)到更高層中的語義信息。定位任務(wù)比較看重同變性,即希望物體在圖像中進(jìn)行了平移,定位的結(jié)果也應(yīng)該做對應(yīng)的平移,旨在判別位置和尺寸。
因?yàn)镃NN網(wǎng)絡(luò)有很多的卷積層和池化層,所以越深層的特征層不變性越強(qiáng)而同變性越弱,而低層網(wǎng)絡(luò)雖然語義特征比較差,但是含有更豐富的邊緣及輪廓信息。為了同時(shí)保持不變性和同變性,可以融合多層特征層。因此近三年來,特征融合在目標(biāo)檢測中得到了廣泛的應(yīng)用。
在目標(biāo)檢測中進(jìn)行特征融合的方法有很多。本文從兩個(gè)方面介紹了近年來的一些方法:1) 處理流程;2) 元素式操作。
(1)處理流程
目前用于目標(biāo)檢測的特征融合方法可分為兩類:1) 自底向上融合[11],2) 自頂向下融合[12],如下圖(a)-(b)所示。自底向上的融合通過跳躍連接將淺層特征前饋到更深的層,相比之下,自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法,最近還提出了更復(fù)雜的方法,例如跨層特征編織法[13]。
由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸,因此可能需要對特征圖進(jìn)行調(diào)整,如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡單的方法是使用最接近或雙線性插值(nearest or bilinear-interpolation)[14]。此外,分?jǐn)?shù)階條紋卷積 (又稱轉(zhuǎn)置卷積)是近年來另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法[15]。使用分?jǐn)?shù)階條紋卷積的優(yōu)點(diǎn)是,它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉韴?zhí)行上采樣本身。
(2)元素式操作
從局部的角度看,特征融合可以看作是不同特征映射之間各元素的操作。如上圖(c)-(e)所示,分別有三種方法:1) 對應(yīng)元素的和[12],2) 對應(yīng)元素的積[16],3) 元素并置[11]。
對應(yīng)元素的和是執(zhí)行特征融合最簡單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測器。對應(yīng)元素的積與對應(yīng)元素的和非常相似,唯一的區(qū)別是使用乘法而不是求和。求積的一個(gè)優(yōu)點(diǎn)是它可以用來抑制或突出某個(gè)區(qū)域內(nèi)的特性,這可能進(jìn)一步有利于小對象檢測。特征拼接/串聯(lián)是特征融合的另一種方式。它的優(yōu)點(diǎn)是可以用來集成不同區(qū)域的語境信息,缺點(diǎn)是增加了內(nèi)存。
通過大接受域?qū)W習(xí)高分辨率特征
接受域和特征分辨率是基于CNN的檢測器的兩個(gè)重要特點(diǎn),前者是指輸入像素的空間范圍,用于計(jì)算輸出的單個(gè)像素;而后者對應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語境信息,而具有較小接受域的網(wǎng)絡(luò)則可能更專注于局部細(xì)節(jié)。
正如前面提到的,特征分辨率越低,就越難檢測小對象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來一個(gè)新的問題,即由于輸出步長減小,接受域會(huì)變得太小。換句話說,這將縮小檢測器的“視線”范圍,并可能導(dǎo)致一些大型目標(biāo)被漏檢。
其中一種可同時(shí)提高接收域和特征分辨率的方法是引入膨脹卷積(dilated convolution),又稱空洞卷積(atrous convolution)或帶孔卷積(convolution with holes)。膨脹卷積最初是在語義分割任務(wù)中提出的[17],其主要思想是對卷積濾波器進(jìn)行擴(kuò)展以及使用稀疏參數(shù)。例如,膨脹率為2的3x3濾波器會(huì)具有與核為5x5的濾波器相同的接受域,但只有9個(gè)參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測中,它在不需要任何額外參數(shù)和計(jì)算代價(jià)的情況下可有效提高精度[18]。
語義分割式學(xué)習(xí)
近年來的研究表明,通過學(xué)習(xí)和語義分割可以明顯提高目標(biāo)檢測能力。
為什么語義分割可提高檢測效果?語義分割提高目標(biāo)檢測能力的原因有三個(gè)。
1. 語義分割可幫助類型識別
邊緣和邊界是構(gòu)成人類視覺認(rèn)知的基本要素。在計(jì)算機(jī)視覺中,目標(biāo)(如汽車、人)和背景物(如天空、水、草)的區(qū)別在于前者通常有一個(gè)封閉的、明確的邊界,而后者沒有。由于語義分割任務(wù)的特征能夠很好地捕捉到對象的邊界,因此分割可能有助于分類識別。
2. 語義分割可幫助精確定位
良好定義的邊界決定了對象的基準(zhǔn)邊界框。對于一些特殊形狀的物體 (如一只有很長尾巴的貓),很難預(yù)測具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語義分割特征中,分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。
3. 語義分割可嵌入進(jìn)語境結(jié)構(gòu)
日常生活中的物體被不同的背景所包圍,如天空、水、草等,這些元素構(gòu)成了一個(gè)物體的語境。整合語境的語義分割將有助于目標(biāo)檢測,例如,飛機(jī)更有可能出現(xiàn)在空中而不是水上。
語義分割如何提高檢測效果?
通過分割提高目標(biāo)檢測的主要方法有兩種:1) 采用豐富的特征學(xué)習(xí);2) 采用多任務(wù)損失函數(shù)學(xué)習(xí)。
(1)豐富化特征學(xué)習(xí)最簡單的方法是將分割網(wǎng)絡(luò)看作一個(gè)固定的特征提取器[18][19],并將其作為附加特征集成到檢測框架中。該方法的優(yōu)點(diǎn)是易于實(shí)現(xiàn),缺點(diǎn)是分割網(wǎng)絡(luò)可能帶來額外的計(jì)算。
(2)多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測框架的基礎(chǔ)上引入額外的分割旁支,用多任務(wù)損失函數(shù) ( 分割損失+檢測損失 ) 訓(xùn)練該模型[19]。在大多數(shù)情況下,分割分支將在推理階段被刪除。優(yōu)點(diǎn)是檢測速度不受影響,而缺點(diǎn)是訓(xùn)練需要像素級的圖像標(biāo)注。為此,一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想:他們不是基于像素級注釋掩碼進(jìn)行訓(xùn)練,而是基于邊界框級注釋訓(xùn)練分割分支[20]。
這次我們對目標(biāo)檢測的一些加速優(yōu)化技術(shù)做了介紹,下一次我們將會(huì)著重介紹目標(biāo)檢測的具體應(yīng)用領(lǐng)域及未來的發(fā)展方向,敬請期待!
參考文獻(xiàn)
[1]K. He and J. Sun, “Convolutional neural networks at constrained time cost,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 5353– 5360.
[2]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2818–2826.
[3]X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating very deep convolutional networks for classification and detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 1943–1955, 2016.
[4]F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” arXiv preprint, pp. 1610–02 357, 2017.
[5]R. J.Wang, X. Li, S. Ao, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” arXiv preprint arXiv:1804.06882, 2018.
[6]T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853.
[7]B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transferable architectures for scalable image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 8697–8710.
[8]Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.
[9]C. Liu, L.-C. Chen, F. Schroff, H. Adam,W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.
[10]X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.
[11]P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.
[12]S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.
[13]Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.
[14]A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for object detection,” arXiv preprint arXiv:1612.06851, 2016.
[15]M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.
[16]T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.
[17]F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[18]Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.
[19]S. Gidaris and N. Komodakis, “Object detection via a multi-region and semantic segmentation-aware cnn model,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1134–1142.
[20]S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.
[21]Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 封殺AI“照騙”,“淘寶們”終于不忍了?
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 地平線自動(dòng)駕駛方案解讀