訂閱
糾錯(cuò)
加入自媒體

刷新中文命名實(shí)體識別SOTA,華為云論文入選國際頂會NAACL 2022

2022-04-13 17:41
來源: 粵訊

4月7日,自然語言處理領(lǐng)域國際頂級學(xué)術(shù)會議NAACL 2022(The North American Chapter of the Association for Computational Linguistics)公布論文入選名單,由華為云語音語義創(chuàng)新Lab多名研究者撰寫的信息抽取論文《Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition》被NAACL 2022 Findings接收,這代表著中文命名實(shí)體識別的最優(yōu)結(jié)果 (SOTA) 被進(jìn)一步刷新,更準(zhǔn)確有效的實(shí)體識別將推動(dòng)下游自然語言處理任務(wù)的進(jìn)一步發(fā)展。

NAACL由國際計(jì)算語言學(xué)學(xué)會(ACL)主辦,與ACL、EMNLP并稱NLP領(lǐng)域的三大頂會,是人工智能的重要研究陣地。NAACL的錄用十分嚴(yán)格,根據(jù)往年評選結(jié)果,只有不到30%的論文被接收。

作為自然語言處理中最經(jīng)典、最基礎(chǔ)的任務(wù),命名實(shí)體識別一直受到廣泛的關(guān)注與研究。近年來,中文命名實(shí)體識別任務(wù)上取得了明顯進(jìn)展,很多新的方法和框架被陸續(xù)提出,但往往忽略了實(shí)體詞的內(nèi)部組成。

對于中文命名實(shí)體而言,很多類別的實(shí)體都具有很強(qiáng)的命名規(guī)律性。比如說,以“公司”或者“銀行”結(jié)尾的實(shí)體詞,通常屬于組織機(jī)構(gòu)這一實(shí)體類別。因此,在《Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition》中,華為云語音語義創(chuàng)新Lab的研究者提出用簡單有效、規(guī)律性引導(dǎo)的識別網(wǎng)絡(luò)來探究中文實(shí)體詞中的規(guī)律性。

刷新中文命名實(shí)體識別SOTA,華為云論文入選國際頂會NAACL 2022

圖1 規(guī)律性引導(dǎo)的識別網(wǎng)絡(luò)

如圖1,華為云研究者首先利用注意力機(jī)制顯著地提取每個(gè)文本段的規(guī)律性,進(jìn)而將這種表征文本內(nèi)部的規(guī)律性的特征和通過Biaffine Attention提取的文本段特征結(jié)合起來,進(jìn)行后續(xù)的實(shí)體識別。為了避免由于過度關(guān)注實(shí)體內(nèi)部規(guī)律性導(dǎo)致的實(shí)體邊界識別偏差,研究者們另外設(shè)計(jì)了一個(gè)與規(guī)則無關(guān)的模塊來幫助模型更準(zhǔn)確地識別實(shí)體的邊界。

刷新中文命名實(shí)體識別SOTA,華為云論文入選國際頂會NAACL 2022

圖2 中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

華為云研究者提出的規(guī)律性引導(dǎo)的識別網(wǎng)絡(luò),如圖2,在MSRA, Ontonotes4.0, 和Ontonotes5.0三個(gè)大規(guī)模中文實(shí)體識別數(shù)據(jù)集上都取得了SOTA的結(jié)果。同時(shí),本文提出的方法不依賴于外部詞典信息,并且F1值超過了目前所有使用詞典信息的方法的結(jié)果。這充分說明通過研究實(shí)體詞的內(nèi)部規(guī)律性,研究者們提出了一個(gè)非常有效的網(wǎng)絡(luò)結(jié)構(gòu)。

不止在信息抽取方面,華為云語音語義創(chuàng)新Lab秉承開放創(chuàng)新、勇于探索、持續(xù)突破關(guān)鍵技術(shù)的精神,面向行業(yè)客戶提供領(lǐng)先的語音語義AI能力,結(jié)合大量行業(yè)知識,推出知識計(jì)算等行業(yè)解決方案,打造業(yè)界一流的知識計(jì)算競爭力。截至目前,已在政務(wù)、金融、石油等多個(gè)行業(yè)進(jìn)行了落地和實(shí)踐,幫助客戶實(shí)現(xiàn)AI落地與智能升級。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號