醫(yī)學(xué)影像AI為什么需要小數(shù)據(jù)學(xué)習(xí)?
近年來,深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)一定程度上顛覆了醫(yī)學(xué)影像行業(yè)的發(fā)展路徑,人工智能介入下,影像相關(guān)科室繁雜重復(fù)的工作逐漸由算法接替,醫(yī)生資源短缺這一問題似乎出現(xiàn)了解決的希望。
但AI亦有其限制。從當(dāng)前發(fā)展情況看,有效的人工智能算法大多聚集于存在大量標(biāo)準(zhǔn)化數(shù)據(jù)的病種,畢竟要實(shí)現(xiàn)高質(zhì)量AI診斷,需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練。
這一數(shù)據(jù)相關(guān)的特質(zhì)限制了醫(yī)學(xué)AI的廣泛應(yīng)用,F(xiàn)實(shí)之中,罕見病和疑難雜癥的數(shù)據(jù)較少,囿于患者隱私、數(shù)據(jù)安全等問題,數(shù)據(jù)收集行為的開展也較為困難。此外,醫(yī)學(xué)圖像的標(biāo)注過程成本較高,對(duì)于不同的標(biāo)注內(nèi)容往往需要開發(fā)特殊的標(biāo)注工具并交由有經(jīng)驗(yàn)的醫(yī)生進(jìn)行。多方面原因協(xié)同下,某些醫(yī)學(xué)圖像問題的高標(biāo)注質(zhì)量醫(yī)學(xué)圖像數(shù)據(jù)集非常稀缺,其AI自然也難以孕育。
好在AI面臨的困境并非沒有解法;叵肫饋,人類只需通過極少的樣本就能辨別新的事物,那么機(jī)器是否能以復(fù)制人類的這一能力呢?答案或許是可以的。最近醫(yī)學(xué)AI領(lǐng)域興起的一系列小數(shù)據(jù)學(xué)習(xí)方法便是以模仿人類的判別能力為目標(biāo),嘗試通過減少需要的數(shù)據(jù)量,實(shí)現(xiàn)特定目標(biāo)圖像的識(shí)別,最終克服醫(yī)學(xué)領(lǐng)域數(shù)據(jù)量少、標(biāo)準(zhǔn)缺乏的問題。
以先驗(yàn)知識(shí)為基礎(chǔ)的小樣本學(xué)習(xí)
要實(shí)現(xiàn)小樣本學(xué)習(xí)(few-shot learning)必須要具備一些特定條件,譬如模型學(xué)習(xí)前已經(jīng)吸收了一定類別的大量資料后,再加之新類別的極少量數(shù)據(jù),最終實(shí)現(xiàn)小樣本模型的形成。因此,小樣本學(xué)習(xí)的關(guān)鍵是在算法中納入合適的先驗(yàn)知識(shí)。
具體到醫(yī)療領(lǐng)域之中,很多醫(yī)學(xué)圖像模態(tài)中廣泛存在器官的位置先驗(yàn)信息,例如CT圖像中肝臟主要位于腹腔的右上位置,而脾則在腹腔的左上部分,這些位置先驗(yàn)信息對(duì)于AI識(shí)別特定類別的器官有非常大的幫助。
體素科技在頂級(jí)會(huì)議ISBI2021上發(fā)表的論文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一種基于位置先驗(yàn)信息的局部原型網(wǎng)絡(luò)(location sensitive local prototype network,見圖1)。該論文以肝和脾影像數(shù)據(jù)構(gòu)建訓(xùn)練集,再將其收獲先驗(yàn)信息的算法加入少量腎部影像分割任務(wù),實(shí)現(xiàn)基于小樣本學(xué)習(xí)的AI模型訓(xùn)練。
圖一:基于位置先驗(yàn)信息的局部原型網(wǎng)絡(luò)框架
在公開的CT器官分割數(shù)據(jù)集Visceral進(jìn)行試驗(yàn)后,其結(jié)果表明,論文提出的新框架比目前的最好方法在Dice Score指標(biāo)上提高了10%,顯著推進(jìn)了小樣本下的器官分割這一領(lǐng)域的技術(shù)進(jìn)展。
利用極端變化一致性來提高數(shù)據(jù)不足情況下醫(yī)學(xué)圖像分割的魯棒性
除了數(shù)據(jù)獲取困難這一問題外,研究人員在訓(xùn)練時(shí)還會(huì)遭遇數(shù)據(jù)來源不統(tǒng)一的問題。
由于醫(yī)學(xué)圖像的拍攝設(shè)備和拍攝環(huán)境和方式多樣,各個(gè)醫(yī)院和體檢中心之間的人群分布差異明顯,因此很難收集和標(biāo)注足量的訓(xùn)練數(shù)據(jù)充分涵蓋不同來源的圖像特征。如果訓(xùn)練數(shù)據(jù)和實(shí)際測(cè)試數(shù)據(jù)存在明顯的的分布差異(domain shift),生成的模型往往性能不佳。
體素科技在頂級(jí)會(huì)議MICCAI2020上發(fā)表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》為解決這一問題提供了方向。具體而言,該論文提出了極端一致性(extreme consistency)的概念,核心思想是在訓(xùn)練數(shù)據(jù)中加入極端的圖像變換(比如大量強(qiáng)烈的亮度,對(duì)比度, 旋轉(zhuǎn), 尺寸變換),以增加訓(xùn)練數(shù)據(jù)的多樣性,并假設(shè)這些極端的圖像變換并不影響圖像的語義含義。舉例來說,眼底圖像中的血管在經(jīng)過極端的旋轉(zhuǎn)和亮度對(duì)比度等變換后,依然能夠?qū)?yīng)血管本身。
為了實(shí)現(xiàn)這一構(gòu)想,論文設(shè)計(jì)了一種半監(jiān)督算法(semi-supervised learning, 見圖2), 迫使模型遵守極端變化前和變化后的語義一致性這一約束,進(jìn)而提高模型對(duì)于分布差異的魯棒性。該論文在皮膚病變分割數(shù)據(jù)集(ISIC)和兩個(gè)眼底血管分割數(shù)據(jù)集 (HRF和STARE)上進(jìn)行了測(cè)試,展現(xiàn)了在數(shù)據(jù)不足和分布差異較大情況下,算法的魯棒性和準(zhǔn)確性的優(yōu)勢(shì)。
圖2:左邊是基于極端一致性的半監(jiān)督學(xué)習(xí)方法的偽代碼,右邊是網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
少標(biāo)注和弱標(biāo)注情況下醫(yī)學(xué)圖像分割如何解決?
除了數(shù)據(jù)的來源問題,對(duì)已有數(shù)據(jù)進(jìn)行分割標(biāo)注同樣需要研究人員付出大量成本。在中國,影像數(shù)據(jù)標(biāo)注非常昂貴,尤其是像素級(jí)別的醫(yī)學(xué)圖像分割標(biāo)注,人力支出更為巨大。因此,近期大量的研究工作試圖解決不完善醫(yī)學(xué)圖像分割數(shù)據(jù)集中的兩類典型問題:
· 標(biāo)注稀缺。數(shù)據(jù)集中只有極稀少的圖像數(shù)據(jù)有分割標(biāo)注。
· 弱標(biāo)簽。數(shù)據(jù)集中的圖像數(shù)據(jù)只有部分標(biāo)注、或者標(biāo)注帶有噪聲、或者只有圖像級(jí)的類別標(biāo)簽沒有逐像素的分割標(biāo)注。
對(duì)于這兩問題,體素科技發(fā)表在頂級(jí)期刊《Medical Image Analysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系統(tǒng)性地對(duì)現(xiàn)有方案進(jìn)行了詳細(xì)的回顧和分類總結(jié)(見圖3所示)。根據(jù)醫(yī)學(xué)圖像分割數(shù)據(jù)集的不同缺陷,論文對(duì)這些方案的選擇給出了實(shí)際的指導(dǎo)建議。
圖3:醫(yī)學(xué)分割圖像數(shù)據(jù)集數(shù)據(jù)集缺陷問題及相應(yīng)訓(xùn)練策略總結(jié)
近年來,體素科技和交大科研團(tuán)隊(duì)合作參與了多個(gè)醫(yī)學(xué)AI挑戰(zhàn)賽并獲得佳績(jī)。體素科技團(tuán)隊(duì)在ISBI2020學(xué)術(shù)會(huì)議上舉辦的ADAM比賽黃斑定位任務(wù)上獲得了第三名的成績(jī)。ADAM比賽是由百度靈醫(yī)智慧和中山大學(xué)中山眼科中心聯(lián)合舉辦,包含了黃斑定位等四個(gè)任務(wù),吸引了來自20多個(gè)國家的近400支參賽隊(duì)伍。
黃斑區(qū)域是眼底的一個(gè)特別重要的功能區(qū)域,精確定位黃斑對(duì)于進(jìn)一步的輔助診斷很有幫助。該任務(wù)一大難點(diǎn)是,很多嚴(yán)重影響視力的眼底疾病都發(fā)生在黃斑區(qū)域,使其外觀和正常黃斑相比有較大變化,導(dǎo)致現(xiàn)有常見深度學(xué)習(xí)模型對(duì)于病變黃斑的定位不夠魯棒。體素科技團(tuán)隊(duì)創(chuàng)新性的設(shè)計(jì)了一個(gè)雙流網(wǎng)絡(luò)融合眼底圖像和對(duì)應(yīng)的血管分割信息,可以借助于眼底血管形狀和走向信息來估計(jì)黃斑的位置,大大提高了嚴(yán)重病變的黃斑區(qū)域定位效果。該模型在ADAM比賽決賽中平均黃斑定位誤差為25個(gè)像素(排名第3), 體現(xiàn)了一定的臨床可用性。
除此之外,體素科技團(tuán)隊(duì)在COVID-19 Lung CT Lesion Segmentation Challenge - 2020(“肺部CT新冠肺炎分割2020”國際挑戰(zhàn)賽)中獲佳績(jī),在肺炎分割關(guān)鍵指標(biāo)Dice Score上排名第2,所有指標(biāo)加權(quán)排名第3。
COVID-19-20國際挑戰(zhàn)賽是由Children‘s National Hospital聯(lián)合英偉達(dá)(NVIDIA)、美國國立衛(wèi)生研究院(NIH)和國際醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)協(xié)會(huì)(MICCAI)舉辦的國際競(jìng)賽,設(shè)置了分割和量化由SARS-CoV-2感染引起的肺部病變(主要是毛玻璃影)的挑戰(zhàn)任務(wù),旨在探究基于深度學(xué)習(xí)的肺炎病灶分割模型用于COVID-19 CT 影像定量分析的可行性,為COVID-19 鑒別診斷提供幫助。COVID-19-20國際挑戰(zhàn)賽吸引了來自29個(gè)國家的200多支參賽隊(duì)伍。
此次獲獎(jiǎng)的新冠肺炎分割模型采用目前在各類醫(yī)學(xué)圖像分割任務(wù)中均表現(xiàn)突出的深度學(xué)習(xí)模型nn-Unet 框架進(jìn)行肺炎病灶分割,對(duì)圖像分割中的各個(gè)環(huán)節(jié),包括圖像預(yù)處理,網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)過程等都進(jìn)行了自動(dòng)化的優(yōu)化和參數(shù)估計(jì)。同時(shí)為了解決噪聲標(biāo)注帶來的模型優(yōu)化方向偏離以及在醫(yī)學(xué)影像中普遍存在的前景背景類別不平衡的問題,體素科技團(tuán)隊(duì)選取了Noise-Robust Dice Loss作為模型的優(yōu)化損失。最終該模型在同源測(cè)試集上Dice Score為0.6581(排名第2)。
作者:動(dòng)脈網(wǎng)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
技術(shù)文庫
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
-
10 “意外”的藥明康德
- 1 2025高端醫(yī)療器械國產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯(cuò)估了關(guān)稅將對(duì)中國醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報(bào)告:前十大出口市場(chǎng)在哪?
- 4 認(rèn)購火爆,映恩生物打響18A IPO重啟信號(hào)槍
- 5 中國創(chuàng)新藥出海:機(jī)遇、挑戰(zhàn)與未來展望
- 6 核藥賽道解碼:高壁壘、國產(chǎn)替代與千億市場(chǎng)卡位
- 7 創(chuàng)新藥是避風(fēng)港,更是發(fā)射臺(tái)!
- 8 第一醫(yī)藥扣非凈利潤僅687.40萬元:上海“隱形土豪”要再沉淀沉淀
- 9 隱匿的醫(yī)療大佬,10年干出千億級(jí)公司
- 10 外骨骼機(jī)器人,誰是盈利最強(qiáng)企業(yè)?