91九色李宗瑞在线观看,亚洲欧美人成人综合在线播放

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

深蘭科技獲CCKS2020金融領(lǐng)域任務(wù)冠軍，為該領(lǐng)域提供重要決策參考

2020-11-17 13:19

11月12～15日，國(guó)內(nèi)知識(shí)圖譜和語(yǔ)義計(jì)算等領(lǐng)域的核心學(xué)術(shù)會(huì)議CCKS2020，在江西南昌成功舉行，深蘭科技DeepBlueAI團(tuán)隊(duì)首次參加即斬獲三冠一亞，成為本屆會(huì)議唯一獲得多個(gè)冠軍的隊(duì)伍。團(tuán)隊(duì)分別在“新冠百科知識(shí)圖譜類型推斷”、“面向金融領(lǐng)域的篇章級(jí)事件主體抽取”、“基于標(biāo)題的大規(guī)模商品實(shí)體檢索”這三個(gè)（子）任務(wù)中奪得第一，在“面向中文短文本的實(shí)體鏈指”任務(wù)中僅以0．00002分之差屈居第二。此外，本屆組委會(huì)還特別評(píng)選出每一任務(wù)至多一項(xiàng)的“創(chuàng)新技術(shù)獎(jiǎng)”，專門用于鼓勵(lì)創(chuàng)新性技術(shù)的使用，深蘭科技在“基于標(biāo)題的大規(guī)模商品實(shí)體檢索”的任務(wù)中再次脫穎而出。

第十四屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)（CCKS：China Conference on Knowledge Graph and Semantic Computing）由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦，主題是“知識(shí)圖譜與認(rèn)知智能”，共設(shè)立8個(gè)相關(guān)主題的技術(shù)評(píng)測(cè)任務(wù)，旨在為研究人員提供測(cè)試知識(shí)圖譜與語(yǔ)義計(jì)算技術(shù)、算法及系統(tǒng)的平臺(tái)和資源，促進(jìn)國(guó)內(nèi)知識(shí)圖譜領(lǐng)域的技術(shù)發(fā)展，此次吸引了包括華為、百度、騰訊、小米、北京大學(xué)、上海交通大學(xué)、浙江大學(xué)等知名企業(yè)和學(xué)府的團(tuán)隊(duì)同臺(tái)競(jìng)技。

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，人們逐漸從信息時(shí)代進(jìn)入智能時(shí)代。知識(shí)圖譜作為承載底層海量知識(shí)并支持上層智能應(yīng)用的重要載體，在智能時(shí)代中扮演了極其重要的角色。尤其多模態(tài)知識(shí)圖譜的構(gòu)建，能夠讓基于知識(shí)圖譜的智能服務(wù)更好地理解真實(shí)世界的數(shù)據(jù)場(chǎng)景，進(jìn)而更好地支撐各項(xiàng)上游任務(wù)和行業(yè)應(yīng)用，如推薦系統(tǒng)、語(yǔ)義搜索、智能問(wèn)答等。深蘭科技奪冠的三個(gè)任務(wù)方案，分別可在電商、金融、輿情監(jiān)控等領(lǐng)域的應(yīng)用上發(fā)揮重要作用。

“新冠百科知識(shí)圖譜類型推斷”任務(wù)，要求從實(shí)體百科（包括百度百科、互動(dòng)百科、維基百科、醫(yī)學(xué)百科）頁(yè)面出發(fā)，從給定的數(shù)據(jù)中推斷相關(guān)實(shí)體的類型。然而，大量類型信息以非結(jié)構(gòu)化文本形式呈現(xiàn)于網(wǎng)絡(luò)頁(yè)面中，文本處理難度大，抽取結(jié)果同時(shí)保證高準(zhǔn)確度和覆蓋率仍然是個(gè)極大的挑戰(zhàn)。針對(duì)數(shù)據(jù)集的特點(diǎn)，DeepBlueAI團(tuán)隊(duì)構(gòu)建了數(shù)個(gè)基于BERT模型的文本分類器，并引入了多個(gè)外部數(shù)據(jù)集，最后將這些分類器進(jìn)行融合得到最終判斷結(jié)果。實(shí)體類型是知識(shí)圖譜的重要組成，正確的實(shí)體類型是構(gòu)建一個(gè)高質(zhì)量知識(shí)圖譜的前提。

“事件”在金融領(lǐng)域是投資分析、資產(chǎn)管理的重要決策參考，也是知識(shí)圖譜的重要組成部分，而“事件抽取”是進(jìn)行圖譜推理、事件分析的必要過(guò)程。在金融領(lǐng)域，“事件抽取”是一項(xiàng)十分重要的任務(wù)，也是自然語(yǔ)言處理領(lǐng)域一項(xiàng)比較復(fù)雜的任務(wù)，它的挑戰(zhàn)相當(dāng)部分體現(xiàn)在文本復(fù)雜上：輸入的文本可能是句子、段落或者篇章，不定長(zhǎng)度的文本使得限制文本長(zhǎng)度的模型無(wú)法使用。“面向金融領(lǐng)域的篇章級(jí)事件主體抽取”任務(wù)中，團(tuán)隊(duì)使用了多標(biāo)簽事件分類加實(shí)體識(shí)別Pipeline模型，在標(biāo)準(zhǔn)的多標(biāo)簽分類模型中加入了特征提取模塊，實(shí)體識(shí)別模型采用BERT－LSTM－CRF與閱讀理解投票融合的方式，最終以較大優(yōu)勢(shì)獲得第一。

“基于標(biāo)題的大規(guī)模商品實(shí)體檢索”是典型的語(yǔ)義識(shí)別類任務(wù)，在網(wǎng)購(gòu)已經(jīng)成為一種生活方式的前提下，具有非常實(shí)用的價(jià)值。商品標(biāo)題一般較短，上下文語(yǔ)境不豐富；用戶搜索時(shí)，文本口語(yǔ)化嚴(yán)重；商品標(biāo)題中存在很多變異指代，沒(méi)有給定的指代映射表；這都需要對(duì)上下文語(yǔ)境進(jìn)行精準(zhǔn)理解，具有很大的挑戰(zhàn)。團(tuán)隊(duì)針對(duì)商品檢索任務(wù)采用召回－粗排－精排的總體方案，在召回階段放棄了bm25、dssm等主流召回技術(shù)，創(chuàng)新性地使用Triplet BERT模型進(jìn)行召回，在排序階段采用基于BERT的二分類排序方式，檢索準(zhǔn)確率達(dá)到0．88489。最終不但排名第一，還收獲了創(chuàng)新技術(shù)獎(jiǎng)。

從包括CCKS2020在內(nèi)的國(guó)內(nèi)外頂會(huì)的賽題任務(wù)設(shè)置中不難發(fā)現(xiàn)，其共同點(diǎn)在于更注重了落地應(yīng)用性。隨著社會(huì)的發(fā)展，人工智能已逐漸滲透到各個(gè)行業(yè)并轉(zhuǎn)化為實(shí)際應(yīng)用，而深蘭科技早在成立之初就提出了“基礎(chǔ)研究與落地應(yīng)用”齊頭并進(jìn)的理念，并取得了有目共睹的成效。會(huì)議競(jìng)賽的成績(jī)是對(duì)過(guò)往的檢驗(yàn)，更是對(duì)今后不斷進(jìn)取的鞭策，“人工智能服務(wù)民生”將是深蘭科技矢志不渝的目標(biāo)。

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的，請(qǐng)聯(lián)系我們。