訂閱
糾錯
加入自媒體

2020 年 10 篇必讀的 NLP 突破論文 LIST

4、為長文檔而生的 Longformer

Self-Attention 機(jī)制是成功實現(xiàn) Transformer 體系結(jié)構(gòu)的關(guān)鍵因素之一。但是,它也使得基于 Transformer 的模型很難應(yīng)用于長文檔。

現(xiàn)有技術(shù)通常將長輸入分成多個塊,然后再使用復(fù)雜的結(jié)構(gòu)在這些塊中組合信息。艾倫人工智能研究所的研究團(tuán)隊,則為這個問題介紹了一種更為優(yōu)雅的解決方案。

他們提出的 Longformer 采用了一種新的注意力模式,即將局部自注意力和全局自注意力相結(jié)合,在提高效率的同時又不失效果。這種關(guān)注機(jī)制與序列長度成線性比例,并可以處理具有數(shù)千個 tokens 的文檔。由于 sliding window 注意力模式的實現(xiàn)需要帶狀矩陣乘法的形式,而現(xiàn)有的深度學(xué)習(xí)庫(如 PyTorch 和 Tensorflow)不支持這種形式,因此作者還引入了自定義 CUDA 內(nèi)核來實現(xiàn)這些注意力操作。

實驗表明,Longformer 在字符級語言建模任務(wù)上取得了最先進(jìn)的結(jié)果,并且在經(jīng)過預(yù)培訓(xùn)后,在長文檔任務(wù)上始終優(yōu)于 RoBERTa。

一句話總結(jié)現(xiàn)實影響:對于經(jīng)常需要處理長文檔的下游 NLP 任務(wù),Longformer 體系結(jié)構(gòu)可能會有更明顯的優(yōu)勢,這些任務(wù)包括文件分類、問答、共指解析、總結(jié)、語義搜索等。

5、GAN 的巧妙運(yùn)用之 ELECTRA

諸如 BERT 和 XLNet 這類頗受歡迎的語言模型,在預(yù)訓(xùn)練任務(wù)中會屏蔽一小部分未標(biāo)記的輸入,然后訓(xùn)練網(wǎng)絡(luò)以恢復(fù)此原始輸入。

盡管這種名叫 MLM(Masked language modeling)的訓(xùn)練方式效果很好,但是由于它只能從一小部分 tokens(通常約 15%)中學(xué)習(xí),因此其數(shù)據(jù)效率并不是特別高。這種方式遷移到下游 NLP 任務(wù)時能夠得到較好的結(jié)果,但往往需要大量的算力。

作為替代方案,斯坦福大學(xué)和谷歌大腦的研究人員基于 BERT 的模型,與 GAN 的想法相融合,提出一種新的預(yù)訓(xùn)練方法 ——RTD ,replaced token detection。RTD 不會對輸入進(jìn)行遮蔽,而是從生成器中采樣得到可信的 tokens,再替換掉原始輸入上的 tokens。

結(jié)果顯示,該方法可顯著加快下游 NLP 任務(wù)的訓(xùn)練速度并提高準(zhǔn)確性:ELECTRA-Small 的 GLUE 得分為 79.9,優(yōu)于同類的 BERT 模型(得分為 75.1)和更大的 GPT 模型(得分為 78.8);可與 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,僅使用其預(yù)訓(xùn)練計算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基準(zhǔn)測試中優(yōu)于其他最新模型,同時仍需要較少的預(yù)訓(xùn)練計算。

一句話總結(jié)現(xiàn)實影響:由于其計算效率高,ELECTRA 方法可使從業(yè)者更容易使用預(yù)訓(xùn)練的文本編碼器。

6、GPT-3 的誕生

如果每一個新的語言任務(wù)都需要一個與之對應(yīng)的、標(biāo)簽化了的數(shù)據(jù)集,那這絕對會限制語言模型的適用性。

考慮到語言任務(wù)的范圍很廣,而且通常很難收集到大量帶標(biāo)注、可用于訓(xùn)練的數(shù)據(jù)集,OpenAI 的研究人員提出了另一種解決方案,即擴(kuò)大語言模型的規(guī)模,訓(xùn)練出含 175 B 參數(shù)的 GPT-3。

該團(tuán)隊希望 GPT-3 能夠成為更通用化的 NLP 模型,解決當(dāng)前 BERT 等模型的兩個不足之處:對領(lǐng)域內(nèi)有標(biāo)記數(shù)據(jù)的過分依賴,以及對于領(lǐng)域數(shù)據(jù)分布的過擬合。

他們在三種不同的設(shè)置中評估了 GPT-3 :

?Few-shot learning,在推理時給模型一些任務(wù)演示(通常是 10 到 100),但不允許權(quán)重更新。

?One-shot learning,僅允許一次演示,以及對任務(wù)的自然語言描述。

?Zero-shot,不允許進(jìn)行演示且模型只能訪問任務(wù)的自然語言描述時。

這三種評估表明,只訓(xùn)練了一個語言模型、沒有針對任何任務(wù)進(jìn)行 Fine-tuning 的 GPT-3,可以完成多項 NLP 任務(wù),并且每一項任務(wù)都可以得到很好的效果。

也就是說,當(dāng)將這樣的語言模型擴(kuò)展到前所未有的參數(shù)數(shù)量時,該語言模型本身可以用作少樣本學(xué)習(xí)的工具,無需任何額外的訓(xùn)練就可以在許多任務(wù)上取得非常有競爭力的表現(xiàn)。

一句話總結(jié)現(xiàn)實影響:一個帶有 175B 參數(shù)的模型,其資源消耗也是不符合現(xiàn)實考慮的,但是如果研究人員設(shè)法將此模型精簡為可行的大小,則可以將其應(yīng)用于各種語言任務(wù),包括問答和廣告文案生成。

<上一頁  1  2  3  4  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號