訂閱
糾錯(cuò)
加入自媒體

目標(biāo)檢測二十年間那些事兒:加速與優(yōu)化

特征檢測優(yōu)化

特征表示的質(zhì)量是目標(biāo)檢測的關(guān)鍵。近年來,許多研究人員在一些最新引擎的基礎(chǔ)上,進(jìn)一步提高了圖像特征的質(zhì)量,其中最重要的兩組方法是:1) 特征融合;2) 學(xué)習(xí)具有較大接受域的高分辨率特征。

特征融合

不變性(Invariance)和同變性(equivariance)是圖像特征表達(dá),同時(shí)也是目標(biāo)檢測任務(wù)兩個(gè)需要考慮的要素。分類任務(wù)中比較看重不變性,即不論物體出現(xiàn)在圖像中的什么位置,都能識別出來,旨在學(xué)習(xí)到更高層中的語義信息。定位任務(wù)比較看重同變性,即希望物體在圖像中進(jìn)行了平移,定位的結(jié)果也應(yīng)該做對應(yīng)的平移,旨在判別位置和尺寸。

因?yàn)镃NN網(wǎng)絡(luò)有很多的卷積層和池化層,所以越深層的特征層不變性越強(qiáng)而同變性越弱,而低層網(wǎng)絡(luò)雖然語義特征比較差,但是含有更豐富的邊緣及輪廓信息。為了同時(shí)保持不變性和同變性,可以融合多層特征層。因此近三年來,特征融合在目標(biāo)檢測中得到了廣泛的應(yīng)用。

在目標(biāo)檢測中進(jìn)行特征融合的方法有很多。本文從兩個(gè)方面介紹了近年來的一些方法:1) 處理流程;2) 元素式操作。

(1)處理流程

目前用于目標(biāo)檢測的特征融合方法可分為兩類:1) 自底向上融合[11],2) 自頂向下融合[12],如下圖(a)-(b)所示。自底向上的融合通過跳躍連接將淺層特征前饋到更深的層,相比之下,自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法,最近還提出了更復(fù)雜的方法,例如跨層特征編織法[13]。

由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸,因此可能需要對特征圖進(jìn)行調(diào)整,如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡單的方法是使用最接近或雙線性插值(nearest or bilinear-interpolation)[14]。此外,分?jǐn)?shù)階條紋卷積 (又稱轉(zhuǎn)置卷積)是近年來另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法[15]。使用分?jǐn)?shù)階條紋卷積的優(yōu)點(diǎn)是,它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉韴?zhí)行上采樣本身。

(2)元素式操作

從局部的角度看,特征融合可以看作是不同特征映射之間各元素的操作。如上圖(c)-(e)所示,分別有三種方法:1) 對應(yīng)元素的和[12],2) 對應(yīng)元素的積[16],3) 元素并置[11]。

對應(yīng)元素的和是執(zhí)行特征融合最簡單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測器。對應(yīng)元素的積與對應(yīng)元素的和非常相似,唯一的區(qū)別是使用乘法而不是求和。求積的一個(gè)優(yōu)點(diǎn)是它可以用來抑制或突出某個(gè)區(qū)域內(nèi)的特性,這可能進(jìn)一步有利于小對象檢測。特征拼接/串聯(lián)是特征融合的另一種方式。它的優(yōu)點(diǎn)是可以用來集成不同區(qū)域的語境信息,缺點(diǎn)是增加了內(nèi)存。

通過大接受域?qū)W習(xí)高分辨率特征

接受域和特征分辨率是基于CNN的檢測器的兩個(gè)重要特點(diǎn),前者是指輸入像素的空間范圍,用于計(jì)算輸出的單個(gè)像素;而后者對應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語境信息,而具有較小接受域的網(wǎng)絡(luò)則可能更專注于局部細(xì)節(jié)。

正如前面提到的,特征分辨率越低,就越難檢測小對象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來一個(gè)新的問題,即由于輸出步長減小,接受域會(huì)變得太小。換句話說,這將縮小檢測器的“視線”范圍,并可能導(dǎo)致一些大型目標(biāo)被漏檢。

其中一種可同時(shí)提高接收域和特征分辨率的方法是引入膨脹卷積(dilated convolution),又稱空洞卷積(atrous convolution)或帶孔卷積(convolution with holes)。膨脹卷積最初是在語義分割任務(wù)中提出的[17],其主要思想是對卷積濾波器進(jìn)行擴(kuò)展以及使用稀疏參數(shù)。例如,膨脹率為2的3x3濾波器會(huì)具有與核為5x5的濾波器相同的接受域,但只有9個(gè)參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測中,它在不需要任何額外參數(shù)和計(jì)算代價(jià)的情況下可有效提高精度[18]。

語義分割式學(xué)習(xí)

近年來的研究表明,通過學(xué)習(xí)和語義分割可以明顯提高目標(biāo)檢測能力。

為什么語義分割可提高檢測效果?語義分割提高目標(biāo)檢測能力的原因有三個(gè)。

1. 語義分割可幫助類型識別

邊緣和邊界是構(gòu)成人類視覺認(rèn)知的基本要素。在計(jì)算機(jī)視覺中,目標(biāo)(如汽車、人)和背景物(如天空、水、草)的區(qū)別在于前者通常有一個(gè)封閉的、明確的邊界,而后者沒有。由于語義分割任務(wù)的特征能夠很好地捕捉到對象的邊界,因此分割可能有助于分類識別。

2. 語義分割可幫助精確定位

良好定義的邊界決定了對象的基準(zhǔn)邊界框。對于一些特殊形狀的物體 (如一只有很長尾巴的貓),很難預(yù)測具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語義分割特征中,分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。

3. 語義分割可嵌入進(jìn)語境結(jié)構(gòu)

日常生活中的物體被不同的背景所包圍,如天空、水、草等,這些元素構(gòu)成了一個(gè)物體的語境。整合語境的語義分割將有助于目標(biāo)檢測,例如,飛機(jī)更有可能出現(xiàn)在空中而不是水上。

語義分割如何提高檢測效果?

通過分割提高目標(biāo)檢測的主要方法有兩種:1) 采用豐富的特征學(xué)習(xí);2) 采用多任務(wù)損失函數(shù)學(xué)習(xí)。

(1)豐富化特征學(xué)習(xí)最簡單的方法是將分割網(wǎng)絡(luò)看作一個(gè)固定的特征提取器[18][19],并將其作為附加特征集成到檢測框架中。該方法的優(yōu)點(diǎn)是易于實(shí)現(xiàn),缺點(diǎn)是分割網(wǎng)絡(luò)可能帶來額外的計(jì)算。
(2)多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測框架的基礎(chǔ)上引入額外的分割旁支,用多任務(wù)損失函數(shù) ( 分割損失+檢測損失 ) 訓(xùn)練該模型[19]。在大多數(shù)情況下,分割分支將在推理階段被刪除。優(yōu)點(diǎn)是檢測速度不受影響,而缺點(diǎn)是訓(xùn)練需要像素級的圖像標(biāo)注。為此,一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想:他們不是基于像素級注釋掩碼進(jìn)行訓(xùn)練,而是基于邊界框級注釋訓(xùn)練分割分支[20]。

這次我們對目標(biāo)檢測的一些加速優(yōu)化技術(shù)做了介紹,下一次我們將會(huì)著重介紹目標(biāo)檢測的具體應(yīng)用領(lǐng)域及未來的發(fā)展方向,敬請期待!

參考文獻(xiàn)

[1]K. He and J. Sun, “Convolutional neural networks at constrained time cost,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 5353– 5360.

[2]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2818–2826.

[3]X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating very deep convolutional networks for classification and detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 1943–1955, 2016.

[4]F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” arXiv preprint, pp. 1610–02 357, 2017.

[5]R. J.Wang, X. Li, S. Ao, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” arXiv preprint arXiv:1804.06882, 2018.

[6]T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853.

[7]B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transferable architectures for scalable image recognition,” in Proceedings of the IEEE conference on computer vision and  pattern recognition, 2018, pp. 8697–8710.

[8]Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.

[9]C. Liu, L.-C. Chen, F. Schroff, H. Adam,W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.

[10]X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.

[11]P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.

[12]S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.

[13]Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.

[14]A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for object detection,” arXiv preprint arXiv:1612.06851, 2016.

[15]M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.

[16]T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.

[17]F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.

[18]Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.

[19]S. Gidaris and N. Komodakis, “Object detection via a multi-region and semantic segmentation-aware cnn model,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1134–1142.

[20]S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.

[21]Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.

<上一頁  1  2  3  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號