訂閱
糾錯
加入自媒體

機器也能看圖說話


基于 Image Captioning 的 VQA(視覺問答)

Image Captioning是實現(xiàn)視覺認知的一個重要方面,現(xiàn)在基于上文提及的谷歌提出的Image Captioning模型來構(gòu)造對場景的理解,并進行問答。

問題:地面上覆蓋著什么?

模型回答:積雪

問題:地面上覆蓋著什么?模型回答:積雪情況變得不那么樂觀了

深度學(xué)習(xí)系統(tǒng),例如用于VQA的系統(tǒng),可能會發(fā)展出類似的“作弊”方法,表面上似乎“解決了”任務(wù),而無需學(xué)習(xí)潛在的推理過程。 例如,模型可以正確回答“地面覆蓋著什么?”這個問題,不是因為它理解了場景,而是因為有偏差的數(shù)據(jù)集經(jīng)常在積雪時提出有關(guān)地面的問題。 我們怎樣才能確定一個系統(tǒng)是否能夠進行復(fù)雜的推理而不僅僅是利用數(shù)據(jù)的偏差?模型即使給出了正確的回答,我們?nèi)匀灰鞔_重要一點:這個正確答案是模型真正通過一步一步推理得到的,還是通過對圖像和問題的膚淺理解,利用數(shù)據(jù)集偏差,得到的統(tǒng)計結(jié)果。 因此就需要在圖像感知基礎(chǔ)上進行理解、推理、認知,并構(gòu)建數(shù)據(jù)集。

Visual Genome(視覺基因組)

這是斯坦福李飛飛團隊構(gòu)建的數(shù)據(jù)集,它就是嘗試解決這樣的問題。

現(xiàn)有模型能夠檢測照片中的離散對象(人或物);但無法解釋它們之間的交互(interactions)或它們之間的關(guān)系; 大多數(shù)模型停留在感知智能階段; 對視覺世界的推理與認知理解 要求計算機不僅具有檢測對象的能力,還要具有描述這些對象的能力,并理解它們在場景中的相互作用。

采用自然語言對圖像內(nèi)容進行描述,加進去人類的認知理解構(gòu)造訓(xùn)練集。進一步通過知識圖譜工程(關(guān)系抽取、實體鏈接等等),標(biāo)注出對象(Objects)、屬性(Attribute)和關(guān)系(Relationships)。                         構(gòu)造視覺概念到語義層面的數(shù)據(jù)集: 提供目標(biāo)對象的交互和屬性的詳細標(biāo)注;對人、事、物、關(guān)系進一步密集標(biāo)注;將注釋詞匯映射到WordNet中實現(xiàn)規(guī)范化;對每個區(qū)域構(gòu)建一個組織關(guān)系圖;聯(lián)結(jié)一張圖片上的所有區(qū)域圖,構(gòu)成一個完整的場景圖。

然而,上述數(shù)據(jù)集構(gòu)造人力成本大,下面介紹生成式推理數(shù)據(jù)集CLEVR。

生成式推理數(shù)據(jù)集CLEVR

CLEVR是一個診斷數(shù)據(jù)集,用于構(gòu)成語言和基本視覺推理的場景,由斯坦福李飛飛團隊和Facebook AI研究所合作研發(fā)。 CLEVR 數(shù)據(jù)集包含:

10萬幅渲染圖像;

100萬條自動生成的問題,其中85.3萬條獨一無二的問題。

它具有挑戰(zhàn)性的圖像和問題對,可以測試視覺推理能力,如計數(shù)、比較、邏輯推理和在記憶中存儲信息。 下面是來自CLEVR的示例圖像和問題,問題測試視覺推理的方面,例如屬性識別、計數(shù)、比較、多重注意和邏輯操作。

問:大型物體和金屬球體的數(shù)量是否相等?問:大球體左邊的棕色金屬物體的左邊的圓柱體是什么尺寸的?問:有一個和金屬立方體大小相同的球體,它是由和小紅球相同的材料制成的嗎?問:有多少物體是小圓柱體還是紅色的?
CLEVR數(shù)據(jù)集優(yōu)于其他數(shù)據(jù)集的兩點:

(1)CLEVR最大限度地減少了先前VQA數(shù)據(jù)集的偏差,避免學(xué)習(xí)系統(tǒng)在沒有視覺推理的情況下就可以正確回答問題的情況;(2)CLEVR的合成性質(zhì)和詳細注釋有助于深入分析現(xiàn)有數(shù)據(jù)集無法實現(xiàn)的推理能力。  下圖可以直觀呈現(xiàn)出CLEVR數(shù)據(jù)集是如何生成的。

CLEVR中的每個問題都與一個可以在圖像的場景圖(Scene Graph) 上執(zhí)行的功能程序(Functional Program) 相關(guān)聯(lián),從而得到問題的答案。 CLEVR中的每個問題都以自然語言和功能性程序表示。功能程序表示精確確定回答每個問題所需的推理技能。

我們使用問題族的方法,以最小化問題條件偏差的方式將功能程序轉(zhuǎn)換為自然語言。 CLEVR包含總共90個問題族,每個族都有一個程序模板和平均四個文本模板;文本模板是通過為每個族手動編寫一個或兩個模板然后眾包問題重寫生成的;為了進一步增加語言多樣性,我們對每種形狀,顏色和材料使用一組同義詞;每個模板最多有19個參數(shù),少數(shù)族可以生成大量獨特的問題; 右圖顯示了CLEVR中近一百萬個問題,超過85.3萬個是獨一無二的。通過添加新的問題族可以輕松擴展CLEVR。 CLEVR數(shù)據(jù)集上六種VQA方法:在每個問題類型的準確度(越高越好)

Q-typemode:該Baseline 對于每個問題類型預(yù)測最常見的訓(xùn)練集答案。

LSTM:問題是用學(xué)習(xí)得到的單詞嵌入和單詞級LSTM進行處理的。最終的LSTM隱藏狀態(tài)被傳遞給多層感知器(MLP),以預(yù)測可能答案的分布。此方法不使用圖像信息,因此它只能建模了(學(xué)習(xí)了)問題條件偏差。

CNN+ BoW:BoW( Bag of Words, 詞袋),  問題中的每個單詞的詞向量求平均來編碼該問題,并且使用卷積網(wǎng)絡(luò)(CNN)提取的圖像特征對圖像進行編碼。問題和圖像特征被級聯(lián)然后傳遞給多層感知器(MLP),MLP預(yù)測可能答案的分布。我們使用在Google-News語料庫中訓(xùn)練的詞向量; 這些在訓(xùn)練期間沒有經(jīng)過微調(diào)。

CNN+LSTM:圖像和問題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進行編碼,這些特征被級聯(lián)并傳遞給MLP以預(yù)測答案分布。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號