亚洲啪啪,国产精品一区二区三区v视界,春色激情av在线

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27

學(xué)術(shù)頭條

關(guān)注

4、為長文檔而生的 Longformer

Self－Attention 機(jī)制是成功實現(xiàn) Transformer 體系結(jié)構(gòu)的關(guān)鍵因素之一。但是，它也使得基于 Transformer 的模型很難應(yīng)用于長文檔。

現(xiàn)有技術(shù)通常將長輸入分成多個塊，然后再使用復(fù)雜的結(jié)構(gòu)在這些塊中組合信息。艾倫人工智能研究所的研究團(tuán)隊，則為這個問題介紹了一種更為優(yōu)雅的解決方案。

他們提出的 Longformer 采用了一種新的注意力模式，即將局部自注意力和全局自注意力相結(jié)合，在提高效率的同時又不失效果。這種關(guān)注機(jī)制與序列長度成線性比例，并可以處理具有數(shù)千個 tokens 的文檔。由于 sliding window 注意力模式的實現(xiàn)需要帶狀矩陣乘法的形式，而現(xiàn)有的深度學(xué)習(xí)庫（如 PyTorch 和 Tensorflow）不支持這種形式，因此作者還引入了自定義 CUDA 內(nèi)核來實現(xiàn)這些注意力操作。

實驗表明，Longformer 在字符級語言建模任務(wù)上取得了最先進(jìn)的結(jié)果，并且在經(jīng)過預(yù)培訓(xùn)后，在長文檔任務(wù)上始終優(yōu)于 RoBERTa。

一句話總結(jié)現(xiàn)實影響：對于經(jīng)常需要處理長文檔的下游 NLP 任務(wù)，Longformer 體系結(jié)構(gòu)可能會有更明顯的優(yōu)勢，這些任務(wù)包括文件分類、問答、共指解析、總結(jié)、語義搜索等。

5、GAN 的巧妙運(yùn)用之 ELECTRA

諸如 BERT 和 XLNet 這類頗受歡迎的語言模型，在預(yù)訓(xùn)練任務(wù)中會屏蔽一小部分未標(biāo)記的輸入，然后訓(xùn)練網(wǎng)絡(luò)以恢復(fù)此原始輸入。

盡管這種名叫 MLM（Masked language modeling）的訓(xùn)練方式效果很好，但是由于它只能從一小部分 tokens（通常約 15％）中學(xué)習(xí)，因此其數(shù)據(jù)效率并不是特別高。這種方式遷移到下游 NLP 任務(wù)時能夠得到較好的結(jié)果，但往往需要大量的算力。

作為替代方案，斯坦福大學(xué)和谷歌大腦的研究人員基于 BERT 的模型，與 GAN 的想法相融合，提出一種新的預(yù)訓(xùn)練方法 ——RTD ，replaced token detection。RTD 不會對輸入進(jìn)行遮蔽，而是從生成器中采樣得到可信的 tokens，再替換掉原始輸入上的 tokens。

結(jié)果顯示，該方法可顯著加快下游 NLP 任務(wù)的訓(xùn)練速度并提高準(zhǔn)確性：ELECTRA－Small 的 GLUE 得分為 79．9，優(yōu)于同類的 BERT 模型（得分為 75．1）和更大的 GPT 模型（得分為 78．8）；可與 XLNet 和 RoBERTa 媲美的 ELECTRA 模型，僅使用其預(yù)訓(xùn)練計算量的 25％；ELECTRA－Large 在 GLUE 和 SQuAD 基準(zhǔn)測試中優(yōu)于其他最新模型，同時仍需要較少的預(yù)訓(xùn)練計算。

一句話總結(jié)現(xiàn)實影響：由于其計算效率高，ELECTRA 方法可使從業(yè)者更容易使用預(yù)訓(xùn)練的文本編碼器。

6、GPT－3 的誕生