讓機(jī)器“讀懂”醫(yī)療 天衍實(shí)驗(yàn)室獲CHIP2020評(píng)測(cè)兩大獎(jiǎng)項(xiàng)
日前,第六屆中國(guó)健康信息處理大會(huì)(CHIP 2020)舉辦的中文醫(yī)學(xué)信息處理評(píng)測(cè)競(jìng)賽圓滿(mǎn)結(jié)賽,騰訊天衍實(shí)驗(yàn)室依托其在醫(yī)學(xué)領(lǐng)域的長(zhǎng)期技術(shù)積累和創(chuàng)新探索,一舉獲得“中文醫(yī)學(xué)文本命名實(shí)體識(shí)別”賽道冠軍、“中文醫(yī)學(xué)文本實(shí)體關(guān)系抽取”賽道亞軍。
信息抽。↖E)技術(shù)方案突破升級(jí)
對(duì)于醫(yī)學(xué)領(lǐng)域的自然語(yǔ)言文獻(xiàn),例如醫(yī)學(xué)教材、醫(yī)學(xué)百科、臨床病例、醫(yī)學(xué)期刊、入院記錄、檢驗(yàn)報(bào)告等,這些文本中蘊(yùn)含大量醫(yī)學(xué)專(zhuān)業(yè)知識(shí)和醫(yī)學(xué)術(shù)語(yǔ)。將實(shí)體識(shí)別技術(shù)與醫(yī)學(xué)專(zhuān)業(yè)領(lǐng)域結(jié)合,利用機(jī)器讀取醫(yī)學(xué)文本,可以顯著提高臨床科研的效率和質(zhì)量,并且可服務(wù)于下游子任務(wù)。但要想讓機(jī)器“讀懂”醫(yī)學(xué)數(shù)據(jù),核心在于讓計(jì)算機(jī)在大量醫(yī)學(xué)文本中準(zhǔn)確的提取出關(guān)鍵信息,這就涉及到了命名實(shí)體識(shí)別、關(guān)系抽取等自然語(yǔ)言處理技術(shù)。
命名實(shí)體識(shí)別(Named Entity Recognition, NER)和關(guān)系抽。≧elation Extraction, RE)是信息抽。↖nformation Extraction,IE)的兩大核心任務(wù)。命名實(shí)體識(shí)別旨在抽取所需實(shí)體,以醫(yī)療領(lǐng)域?yàn)槔枰獜姆墙Y(jié)構(gòu)化醫(yī)學(xué)文本中找出醫(yī)學(xué)實(shí)體,如疾病、癥狀的過(guò)程;實(shí)體關(guān)系抽取則需要同時(shí)提取出醫(yī)學(xué)實(shí)體及實(shí)體間的關(guān)系信息,即實(shí)體關(guān)系三元組 [頭實(shí)體 (subject), 關(guān)系(predicate), 尾實(shí)體(object)]。
實(shí)體關(guān)系三元組示意
在兩大評(píng)測(cè)任務(wù)中,騰訊天衍實(shí)驗(yàn)室從數(shù)據(jù)和模型層面做出了針對(duì)性設(shè)計(jì)。在命名實(shí)體識(shí)別任務(wù)中,天衍實(shí)驗(yàn)室使用的數(shù)據(jù)集由北京大學(xué)等院校及科研單位智慧醫(yī)療課題組聯(lián)合構(gòu)建;卺t(yī)療領(lǐng)域?qū)?zhuān)業(yè)性、準(zhǔn)確性的高標(biāo)準(zhǔn)要求,及目前命名實(shí)體識(shí)別任務(wù)存在的實(shí)體頻次稀疏和實(shí)體長(zhǎng)度偏長(zhǎng)問(wèn)題,天衍實(shí)驗(yàn)室采用指針解碼的特殊方式,對(duì)單個(gè)實(shí)體的頭尾位置進(jìn)行解碼,經(jīng)過(guò)試驗(yàn)證明,該方法在較長(zhǎng)實(shí)體中的表現(xiàn)確有明顯提升。同時(shí),天衍實(shí)驗(yàn)室基于自身在醫(yī)療領(lǐng)域的經(jīng)驗(yàn),嘗試結(jié)合大量醫(yī)療文本訓(xùn)練領(lǐng)域自適應(yīng)的新預(yù)訓(xùn)練模型,進(jìn)一步提升了模型表現(xiàn)。最終在評(píng)比測(cè)試集上,結(jié)合多種不同策略,天衍實(shí)驗(yàn)室以F1值68.35獲得第一名。
實(shí)體關(guān)系抽取評(píng)測(cè)任務(wù)的數(shù)據(jù)來(lái)源于中文醫(yī)學(xué)信息抽取數(shù)據(jù)集CMeIE,也是目前最大的中文醫(yī)學(xué)關(guān)系數(shù)據(jù)集。因該數(shù)據(jù)中存在大量實(shí)體重疊和關(guān)系重疊的現(xiàn)象,天衍實(shí)驗(yàn)室則采用了層疊指針網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。首先通過(guò)兩個(gè)二值分類(lèi)器提取頭實(shí)體的首尾位置,繼而采用Conditional layer normalization的方式融入頭實(shí)體信息,再針對(duì)每種關(guān)系,分別預(yù)測(cè)對(duì)應(yīng)的尾實(shí)體。此外,為了更好地利用醫(yī)療詞匯的語(yǔ)義信息,天衍實(shí)驗(yàn)室在輸入層融入領(lǐng)域詞向量,有效提升了實(shí)體邊界預(yù)測(cè)的準(zhǔn)確率。最終在測(cè)試集上取得單模型第一(F1 61.70),融合模型(F1 63.87)第二的成績(jī)。
騰訊天衍實(shí)驗(yàn)室基于自身NLP能力和相關(guān)科研成果,不斷通過(guò)一系列信息抽取相關(guān)競(jìng)賽測(cè)試、突破,不僅累積了豐富場(chǎng)景應(yīng)用經(jīng)驗(yàn)與方法,也將更好的輔助醫(yī)療行業(yè)技術(shù)升級(jí)和科研進(jìn)步。
技術(shù)創(chuàng)新助力AI更“懂醫(yī)”
在醫(yī)療領(lǐng)域,電子病歷、生物醫(yī)療文獻(xiàn)中存在大量的非結(jié)構(gòu)化文本,采用信息抽取技術(shù)對(duì)醫(yī)療文本進(jìn)行結(jié)構(gòu)化,提取其中的疾病,癥狀,部位等實(shí)體,并對(duì)實(shí)體之間的關(guān)系進(jìn)行判斷,進(jìn)而利用這些信息構(gòu)建醫(yī)療知識(shí)圖譜,不僅有利于人工智能更好地學(xué)到領(lǐng)域內(nèi)的專(zhuān)業(yè)知識(shí),更進(jìn)一步提升導(dǎo)診、輔診、疾病預(yù)測(cè)等下游醫(yī)療任務(wù)的性能。
具體來(lái)說(shuō),醫(yī)生在疾病診斷的過(guò)程中,不僅要知道患者的癥狀,而且要了解患者不同癥狀所對(duì)應(yīng)的具體屬性,例如癥狀發(fā)生的時(shí)間、部位、變化情況。天衍實(shí)驗(yàn)室AI導(dǎo)診和疾病預(yù)測(cè)功能,正是采用了上述信息抽取技術(shù),可模擬醫(yī)生診斷過(guò)程,并提供循證路徑和一定的可解釋性。
如在AI導(dǎo)診場(chǎng)景中,當(dāng)用戶(hù)輸入主訴,AI導(dǎo)診小程序可以返回推薦科室。用戶(hù)主訴中可能包含多個(gè)癥狀,不同癥狀的時(shí)間、部位、嚴(yán)重程度、病因誘因可能對(duì)應(yīng)不同的疾病,通過(guò)關(guān)系抽取技術(shù),可以捕捉到不同癥狀的具體屬性,從而有助于更精準(zhǔn)的疾病預(yù)測(cè)和科室推薦。對(duì)于下圖中的患者主訴,首先采用ner技術(shù)提取癥狀、檢查等實(shí)體,繼而采用關(guān)系抽取技術(shù)對(duì)不同癥狀的具體屬性進(jìn)行判斷,例如癥狀“腹脹不適”,對(duì)應(yīng)的部位為“上腹”,時(shí)間為“3月余”,變化條件為“進(jìn)食后明顯”,理解了癥狀的一系列細(xì)粒度屬性,才能進(jìn)一步判斷可能的疾病和對(duì)應(yīng)科室。
關(guān)系抽取演示圖
騰訊天衍實(shí)驗(yàn)室致力于長(zhǎng)期在自然語(yǔ)言基礎(chǔ)、語(yǔ)言理解、信息抽取、知識(shí)圖譜構(gòu)建等進(jìn)行研究創(chuàng)新,并將成果運(yùn)用到落地的醫(yī)療自然語(yǔ)言等場(chǎng)景,目前已構(gòu)建醫(yī)療行業(yè)大規(guī)模知識(shí)圖譜,支持了數(shù)百家醫(yī)院的輔診、導(dǎo)診、疾病輔助診斷、智能用藥等產(chǎn)品,助力醫(yī)保、醫(yī)院、疾控中心和其他醫(yī)療機(jī)構(gòu)的智能化知識(shí)挖掘和管理難題,實(shí)現(xiàn)知識(shí)化轉(zhuǎn)型。
騰訊天衍實(shí)驗(yàn)室專(zhuān)注于醫(yī)療健康領(lǐng)域AI算法研究及落地,旨在依托NLP、知識(shí)圖譜、大數(shù)據(jù)、醫(yī)療影像等技術(shù)系統(tǒng),將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應(yīng)用。與此同時(shí),騰訊天衍實(shí)驗(yàn)室還與鐘南山院士以及復(fù)旦腫瘤醫(yī)院等頭部醫(yī)院建立聯(lián)合實(shí)驗(yàn)室,與牛津大學(xué)、佐治亞大學(xué)、天津大學(xué)、微眾銀行AI部門(mén)等單位建立長(zhǎng)期科研合作關(guān)系,目前已發(fā)表包括NIPS、KDD等多篇頂級(jí)學(xué)術(shù)論文,通過(guò)聯(lián)合社會(huì)各界進(jìn)行技術(shù)深入研究,騰訊天衍實(shí)驗(yàn)室將進(jìn)一步加速科研應(yīng)用落地,以服務(wù)于臨床應(yīng)用。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
ChatZOC,藏在口袋里的「眼科醫(yī)生」
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣(mài)藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
技術(shù)文庫(kù)
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺(jué)升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
- 1 2025高端醫(yī)療器械國(guó)產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯(cuò)估了關(guān)稅將對(duì)中國(guó)醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報(bào)告:前十大出口市場(chǎng)在哪?
- 4 認(rèn)購(gòu)火爆,映恩生物打響18A IPO重啟信號(hào)槍
- 5 中國(guó)創(chuàng)新藥出海:機(jī)遇、挑戰(zhàn)與未來(lái)展望
- 6 核藥賽道解碼:高壁壘、國(guó)產(chǎn)替代與千億市場(chǎng)卡位
- 7 創(chuàng)新藥是避風(fēng)港,更是發(fā)射臺(tái)!
- 8 第一醫(yī)藥扣非凈利潤(rùn)僅687.40萬(wàn)元:上!半[形土豪”要再沉淀沉淀
- 9 隱匿的醫(yī)療大佬,10年干出千億級(jí)公司
- 10 3月生物醫(yī)藥產(chǎn)業(yè)100個(gè)項(xiàng)目獲投,廣東最吸金