訂閱
糾錯
加入自媒體

頂會競賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗?


所謂Re-Sampling,即指改進(jìn)data sampler對數(shù)據(jù)的采樣概率,來保證用來訓(xùn)練的數(shù)據(jù)的平衡性。具體做法如上方右圖,對所有的class以相同概率進(jìn)行采樣,采樣出class之后在每個class內(nèi)部再進(jìn)行數(shù)據(jù)采樣,這樣便可以保證每個類在網(wǎng)絡(luò)訓(xùn)練時的次數(shù)是相同的。

Re-Weighting指的是對數(shù)據(jù)進(jìn)行隨機(jī)采樣,且再計算loss時,對不同類的樣本乘上不同權(quán)重。該權(quán)重等于,每個樣本對應(yīng)類別的數(shù)量比上所有圖片數(shù)量的倒數(shù)。例如對于對于aeroplane,有五張圖片,總共十張圖片,則對于aeroplane的加權(quán)就是10/5=2。如此操作,tail類的圖片雖然被采樣到的機(jī)會少,但是loss的加權(quán)大,從而可以實現(xiàn)平衡。   不過對于這兩種解決長尾問題的策略,曠視南京研究院在CVPR 2020上的 Oral論文“BBN”指出,雖然RW和RS可以改善分類器性能,但是會影響backbone對數(shù)據(jù)的表示能力。

如這上圖所示,為了研究RS和RW對CNN 特征表示的影響和對分類器的影響,文章先用一種訓(xùn)練策略訓(xùn)練CNN backbone,然后再把backbone固定,重新訓(xùn)練分類器。   可以發(fā)現(xiàn)當(dāng)分類的訓(xùn)練方式不變時,backbone使用CE的訓(xùn)練方式點數(shù)最高,而當(dāng)backbone的訓(xùn)練方式固定不變時,使用RW和RS的方式訓(xùn)練分類器效果比較好。   這說明RW和RS的方法雖然可以提高網(wǎng)絡(luò)對長尾數(shù)據(jù)的表現(xiàn),但是同時也會一定程度上損害網(wǎng)絡(luò)的表示能力。

為此,BBN解決該問題的做法是,將網(wǎng)絡(luò)分成兩個分支,一個分支接受從uniform sampler 采樣出的數(shù)據(jù),另外一個分支接受從reversed sampler 采樣出的數(shù)據(jù)。所謂reverse sampler,就是把每個類別被采樣到的概率取倒數(shù),從而使得tail類更容易被采樣出來。   sample出兩個batch的數(shù)據(jù)之后前傳經(jīng)過兩個網(wǎng)絡(luò)分支,進(jìn)一步對兩個分支的特征進(jìn)行mixup,最后做分類loss。需要注意的是,BBN為了不損害特征表示,設(shè)計了一個adaptor,該adaptor會隨著訓(xùn)練epoch的增加越來越傾向于增大reverse sampler 分支在mixup中的比重。   這樣BBN可以保證在訓(xùn)練初期,網(wǎng)絡(luò)通過正常的uniform sampler對數(shù)據(jù)學(xué)到一個良好的表征,在訓(xùn)練后期,這個表征會對reverse sampler 采樣出的數(shù)據(jù)進(jìn)行進(jìn)一步的學(xué)習(xí)。   雖然BBN可以很大程度上減緩長尾數(shù)據(jù)對網(wǎng)絡(luò)特征表示的影響,但是與此同時,BBN需要同時訓(xùn)練兩個網(wǎng)絡(luò)分支,占用兩倍于原來的顯存,并且因為這樣batchsize小了,訓(xùn)練時間需要更長,對于比賽而言略需改進(jìn)。

因此,參賽團(tuán)隊為了快速迭代,使用了一個BBN-style 的mixup策略。通過分別從uniform sampler和reversed sampler中采樣,之后將兩個sampler sample出的batch進(jìn)行mixup之后交給網(wǎng)絡(luò)訓(xùn)練,這樣網(wǎng)絡(luò)在訓(xùn)練時可以一定程度上見到足夠多的head類和tail類樣本,并且mixup本身也可以起到增強(qiáng)網(wǎng)絡(luò)泛化性的效果,從而可以提高網(wǎng)絡(luò)對長尾數(shù)據(jù)的表現(xiàn)。

測試階段的增強(qiáng)策略 除上述工作外,在測試階段,團(tuán)隊還使用了一個增強(qiáng)策略tencrop。它將輸入圖片的四個角落和中心進(jìn)行crop獲得原圖的五個crop,之后將圖片進(jìn)行翻轉(zhuǎn)再crop,總獲得十個crop。通過將這些crop輸入給網(wǎng)絡(luò)進(jìn)行前傳,然后將十個預(yù)測結(jié)果進(jìn)行平均,從而能夠得到最后的預(yù)測結(jié)果。   下圖展示了曠視南京研究院參賽團(tuán)隊使用的所有的策略和它們在leaderboard對應(yīng)的得分。

首先是224分辨率的ResNet50  baseline。該baseline使用交叉熵loss進(jìn)行訓(xùn)練,可以在leaderboard得到65.6%的分?jǐn)?shù);第二個模型對分辨率擴(kuò)大了一倍,使用448分辨率輸入,使用交叉熵loss訓(xùn)練,可以看到擴(kuò)大分辨率帶來的收益非常大,在leaderboard上漲了接近十個點。 因此擴(kuò)大分辨率這也是比賽很通用的CV的策略,基本上都可以實現(xiàn)漲點。   當(dāng)換用EfficientNet-b4,輸入分辨率也固定在了448,可以發(fā)現(xiàn)b4相對于ResNet50 的性能更好,同樣設(shè)置下漲了兩個點。 進(jìn)一步,當(dāng)在b4上加入測試時的tencrop,結(jié)果提升了一個多點。   當(dāng)開始將loss函數(shù)替換為label-smooth,且開始在訓(xùn)練時加入BBN style的mixup,網(wǎng)絡(luò)繼續(xù)上漲3個點。 此后一段時間內(nèi),點數(shù)都沒有再得到提升,經(jīng)過討論,團(tuán)隊開始考慮location信息的影響,并設(shè)計出使用gradient reversal layer進(jìn)行對location信息的混淆,突破了這個瓶頸,繼續(xù)上漲2個點。  最后一個改進(jìn)點涉及MegaDetector的BBox信息,使用上文提到的BBox Ensemble策略進(jìn)一步實現(xiàn)了漲點。并且在這過程中,團(tuán)隊還觀察到,隨著Ensemble的進(jìn)行,權(quán)重應(yīng)該適當(dāng)偏向于BBox內(nèi)的物體,這樣性能會更好。 到此時,團(tuán)隊的得分在總榜上位列第一,并持續(xù)了近1個月。期間雖然也嘗試對模型進(jìn)行改進(jìn),但并沒有更新的發(fā)現(xiàn)。 到5月22日(最終截止日期前5天),F(xiàn)acebook團(tuán)隊突然以大比分反超。作為應(yīng)對,曠視南京研究院團(tuán)隊緊急應(yīng)對現(xiàn)有模型方法進(jìn)行了全面分析,并發(fā)現(xiàn)之前一直沒有利用的一個重要信息,即視頻的序列信息。

事實證明,當(dāng)利用了序列信息后,模型的性能大幅提升了近10個點。對此趙冰辰也半開玩笑地說道:“存在一個強(qiáng)大對手的最好價值在于,它讓你不安于現(xiàn)狀,逼你跳出舒適圈,看到更好的自己! 由此,曠視南京研究院團(tuán)隊實現(xiàn)了被Facebook大幅超越,并在48小時內(nèi)又以更大比分優(yōu)勢重新登頂,最終奪得iWildCam全球冠軍壯舉! 另外,為了幫助大家在參與頂會競賽時更好地進(jìn)行團(tuán)隊配合、項目管理,趙冰辰在下方還展示了其團(tuán)隊在比賽期間各個模塊的工作,以供同學(xué)們參考。

<上一頁  1  2  3  4  下一頁>  余下全文
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號