長尾視覺識(shí)別方案解讀
導(dǎo)讀:在NeurIPS 2020上,商湯新加坡團(tuán)隊(duì)提出的Balanced-Meta Softmax (BALMS), 針對(duì)真實(shí)世界中常見的長尾數(shù)據(jù)分布提出了新的視覺識(shí)別方案。在優(yōu)化目標(biāo)方面,BALMS 提出一種新的損失函數(shù),Balanced Softmax,來修正長尾設(shè)定下因訓(xùn)練與測(cè)試標(biāo)簽分布不同而導(dǎo)致的偏差。在優(yōu)化過程方面,BALMS提出 Meta Sampler來自動(dòng)學(xué)習(xí)最優(yōu)采樣率以配合Balanced Softmax,避免過平衡問題。BALMS在長尾圖像分類與長尾實(shí)例分割的共四個(gè)數(shù)據(jù)集上取得SOTA表現(xiàn)。這項(xiàng)研究也被收錄為ECCV LVIS workshop的spotlight。
論文名稱: Balanced Meta-Softmax for Long-Tailed Visual Recognition
問題和挑戰(zhàn)
真實(shí)世界中的數(shù)據(jù)分布大多符合長尾分布:常見類比占據(jù)了數(shù)據(jù)集中的主要樣本,而大量的罕見類別只在數(shù)據(jù)集中少量出現(xiàn)。例如一個(gè)動(dòng)物圖片數(shù)據(jù)集中,寵物貓的圖片數(shù)量可能遠(yuǎn)遠(yuǎn)超過熊貓的圖片數(shù)量。
由于長尾現(xiàn)象對(duì)算法落地造成了很大的挑戰(zhàn),視覺社區(qū)對(duì)這一問題的關(guān)注日漸增加,近年陸續(xù)推出了一些長尾數(shù)據(jù)集,例如大規(guī)模實(shí)例分割數(shù)據(jù)集LVIS。我們發(fā)現(xiàn)長尾問題的難點(diǎn)主要存在于以下兩個(gè)方面:
1)優(yōu)化目標(biāo)。根據(jù)長尾問題的設(shè)定,訓(xùn)練集是類別不均衡的。然而主流的指標(biāo),如mean AP (mAP),衡量全部類別上的平均精度,因此鼓勵(lì)算法在類別平衡的測(cè)試集上取得較好的表現(xiàn)。這導(dǎo)致了訓(xùn)練與測(cè)試時(shí)標(biāo)簽分布不同的問題,我們稱之為標(biāo)簽分布遷移。
2)優(yōu)化過程。罕見類別在模型訓(xùn)練過程中很少出現(xiàn),因此無法在優(yōu)化過程中提供足夠的梯度。這使得即使我們有了一個(gè)較好的優(yōu)化目標(biāo),也很難使模型收斂到對(duì)應(yīng)的全局最優(yōu)。
方法介紹
1. Balanced Softmax
Softmax函數(shù)常常被用來將模型輸出轉(zhuǎn)化為物體屬于每個(gè)類別的條件概率。
應(yīng)用貝葉斯定理可以發(fā)現(xiàn)常規(guī)的Softmax回歸會(huì)受到標(biāo)簽分布遷移的影響,并作出帶偏差的估計(jì)。這個(gè)偏差導(dǎo)致Softmax回歸出的分類器更傾向于認(rèn)為樣本屬于常見類別。
舉一個(gè)簡單的例子,考慮這樣一個(gè)任務(wù):通過性別來分類貓和狗。這個(gè)任務(wù)看起來是無法完成的,因?yàn)槲覀冎佬詣e在貓和狗上是均勻分布的。無論貓還是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性別我們無法區(qū)別貓和狗。
有趣的是,當(dāng)我們的訓(xùn)練數(shù)據(jù)是類別不平衡的時(shí),比如有90%的貓和10%的狗,我們的估計(jì)就會(huì)出現(xiàn)偏差:這時(shí)無論是雄性還是雌性,我們都會(huì)傾向于認(rèn)為它是一只貓。在這樣的訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到的分類器就會(huì)天然帶有對(duì)常見類別的偏愛。
為了避免這個(gè)偏差,我們從多項(xiàng)分布的Exponential Family形式出發(fā)重新對(duì)Softmax進(jìn)行了推導(dǎo)并顯式考慮了標(biāo)簽分布遷移,得到了適合長尾問題的Balanced Softmax。同時(shí),我們發(fā)現(xiàn)Balanced Softmax可以近似地最小化長尾設(shè)定下的泛化錯(cuò)誤上界。
為了分析Balanced Softmax的效果,我們將模型在測(cè)試集上預(yù)測(cè)的分?jǐn)?shù)在每個(gè)類別上累加,用來計(jì)算模型預(yù)測(cè)的標(biāo)簽分布。理想情況下,模型在測(cè)試集上預(yù)測(cè)出的標(biāo)簽分布應(yīng)該是平衡的。在下圖中我們對(duì)不同模型的預(yù)測(cè)類別進(jìn)行了可視化,類別按照出現(xiàn)頻率降序排列,第0類為出現(xiàn)次數(shù)最多的類。我們發(fā)現(xiàn)藍(lán)色線代表的常規(guī)Softmax明顯地偏向于常見類別,橙色線代表的Equalization Loss [1] 通過去除某閾值以下罕見類別的負(fù)樣本梯度緩解了這一問題,而紅色線代表的Balanced Softmax則進(jìn)一步達(dá)到了最平衡的預(yù)測(cè)類別分布。
2. 元采樣器Meta Sampler
雖然我們得到了一個(gè)適合長尾問題的理想的優(yōu)化目標(biāo),優(yōu)化過程本身依然充滿挑戰(zhàn):罕見類別只能在訓(xùn)練中出現(xiàn)極少次數(shù),因此無法很好地貢獻(xiàn)到訓(xùn)練梯度。解決這一問題的最常見的方法是類別均衡采樣 (CBS)[2],也就是對(duì)每個(gè)類別采樣同樣數(shù)量的樣本來組成訓(xùn)練批次。然而,實(shí)驗(yàn)表明直接將Balanced Softmax與CBS一起使用會(huì)導(dǎo)致模型表現(xiàn)下降,于是我們對(duì)兩者一起使用時(shí)的梯度進(jìn)行了分析。在假設(shè)接近收斂時(shí),我們有:
理想情況下每個(gè)類別的梯度的權(quán)重應(yīng)和類別內(nèi)樣本數(shù)量成反比,但上式中的權(quán)重為和類別內(nèi)樣本數(shù)量成平方反比。我們將這個(gè)現(xiàn)象稱為過平衡問題。
下圖展示了一個(gè)對(duì)過平衡問題的可視化。這是一個(gè)類別不平衡的二維數(shù)據(jù)三分類問題,三個(gè)類別分別為紅、黃、藍(lán),樣本數(shù)量分別為10000、100和1?梢园l(fā)現(xiàn)Balanced Softmax和CBS一起使用時(shí),優(yōu)化過程會(huì)被藍(lán)色的罕見類別主導(dǎo)。
為了解決過平衡問題,我們提出了Meta Sampler(元采樣器),一種可學(xué)習(xí)版本的CBS。Meta Sampler使用元學(xué)習(xí)的方法,顯式地學(xué)習(xí)當(dāng)前最佳的采樣率,從而更好地配合Balanced Softmax的使用。
下圖展示了我們對(duì)不同模型預(yù)測(cè)的標(biāo)簽分布進(jìn)行的可視化。其中,紫色線代表的Balanced Softmax與CBS的組合由于過平衡問題,明顯地偏向于尾部類別。而紅色線代表的Balanced Softmax與Meta Sampler的組合則很好地解決了這一問題,最終取得了最為均衡的標(biāo)簽分布。
實(shí)驗(yàn)結(jié)果
我們?cè)趫D像分類(CIFAR-10/100-LT,ImageNet-LT,Places-LT)與實(shí)例分割(LVIS-v0.5)兩個(gè)任務(wù)上分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示了Balanced Softmax和Meta Sampler對(duì)模型表現(xiàn)都有明顯的貢獻(xiàn)。兩者的組合,Balanced Meta-Softmax (BALMS),在這兩個(gè)任務(wù)上都達(dá)到或超過了SOTA結(jié)果,尤其在最具挑戰(zhàn)性的LVIS數(shù)據(jù)集上大幅超過了之前的SOTA結(jié)果。
這項(xiàng)研究也被收錄為ECCV LVIS workshop的Spotlight,關(guān)于LVSI-v1.0的相關(guān)實(shí)驗(yàn)結(jié)果可以在LVSI workshop主頁上找到(Team Innova)。
結(jié)語
BALMS對(duì)長尾問題下的概率建模以及采樣策略進(jìn)行了探討。我們發(fā)現(xiàn)常用的Softmax回歸在存在標(biāo)簽分布遷移時(shí)會(huì)出現(xiàn)估計(jì)偏差,并提出了Balanced Softmax來避免這個(gè)偏差。另一方面,我們發(fā)現(xiàn)類別均衡采樣器在與Balanced Softmax一起使用時(shí)會(huì)導(dǎo)致過平衡問題,于是提出元采樣器來顯式學(xué)習(xí)最優(yōu)采樣策略。我們的解決方案在長尾圖像分類與長尾實(shí)例分割任務(wù)上均得到了驗(yàn)證。歡迎關(guān)注我們的開源代碼庫,希望BALMS可以成為未來長尾學(xué)習(xí)的良好基線。
References
[1] Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, and Junjie Yan. Equalization loss for long-tailed object recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.
[2] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and Yannis Kalantidis. Decoupling representation and classifier for long-tailed recognition. International Conference on Learning Representations, abs/1910.09217, 2020.

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【深圳 IEAE】2025 消費(fèi)新場(chǎng)景創(chuàng)新與實(shí)踐論壇
-
精彩回顧立即查看>> 燧石技術(shù),賦光智慧,超越感知
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
- 1 誰是受“關(guān)稅戰(zhàn)”沖擊最大的城市?
- 2 王凱:以“以太坊”為翼,引領(lǐng)區(qū)塊鏈技術(shù)革新
- 3 城市NOA中,智能駕駛功能邊界在哪里?
- 4 無人配送車產(chǎn)業(yè)鏈拆解
- 5 看完全是黑科技的智慧公園,我不淡定了
- 6 一季度GDP成績單出爐,31省份外貿(mào)依存度如何?
- 7 Uber:自動(dòng)駕駛能殺死“美版滴滴”?
- 8 智駕平權(quán)戰(zhàn)之城市NOA:既要華為性能、又要特斯拉成本
- 9 海上停機(jī)導(dǎo)致航運(yùn)業(yè)維修損失數(shù)萬美金?Easy-Laser易樂推出XT770激光對(duì)中系統(tǒng),實(shí)現(xiàn)毫米級(jí)精度確保航行“零誤差”
- 10 從美國到歐洲,跨境賣家的 “生死” 大轉(zhuǎn)移