納入環(huán)境數據能否提升CDS識別兒童哮喘風險的能力?
導讀
此項研究目的是開發(fā)一種臨床決策支持(CDS)工具,來準確識別出哮喘發(fā)作風險最大的兒童。研究評估了臨床數據,及空間和時間分辨的環(huán)境數據對哮喘惡化預測模型性能的價值貢獻。
哮喘是一種慢性氣道疾病,在美國影響超過500萬兒童,每年有超過一半的哮喘兒童會出現急性加重,其中有1/6會到急診室就診,每20人中有1人因哮喘加重需要住院。哮喘加重由多種臨床和環(huán)境因素引發(fā),但這些因素的相互作用及其對惡化風險的影響尚不清楚。
近期發(fā)表在BMC Medical Informatics and Decision Making的一項研究,探索了開發(fā)臨床決策支持(CDS)工具的潛力,以識別在30天、60天和180天期間哮喘發(fā)作高風險的兒童。評估了EHR中提取的臨床數據,及空間和時間分辨的環(huán)境數據對兒童哮喘惡化預測模型性能的影響,并表明空間和時間數據沒有顯著提高模型性能。
01 臨床、空間、時間三方面數據關聯納入評估
該研究使用杜克大學衛(wèi)生系統(tǒng)(DUHS)的回顧性數據進行的,DUHS包含一家三級保健醫(yī)院、兩家社區(qū)醫(yī)院以及初級保健網絡專業(yè)診所的EHR系統(tǒng),基于EHR的臨床研究數據集市(clinical Research Datamart)提取了階段時間的臨床數據,確定了6395名(5-18歲)患有哮喘的兒童,根據相應條件,最終5982名兒童納入研究分析。研究采用臨床數據與空間數據、時間數據的所有預測變量相關聯,評估模型在預測兒童哮喘惡化方面的效用。以下為各方數據提取來源:
臨床數據:從EHR中提取每個孩子的臨床和社會人口學信息,包括性別、年齡、種族、保險類型、合并癥、藥物處方。
空間數據:根據患者地址得出社區(qū)層面的環(huán)境數據。通過每個孩子的居住地郵政編碼和美國社區(qū)調查的相關數據,來計算醫(yī)療保健研究與質量機構(AHRQ)的社會經濟地位指數(SES);使用ArcGIS計算數據集中每個地理編碼地址到道路的直線距離。
時間數據:從美國環(huán)境信息中心下載了每日平均氣溫、總降水量等氣候數據;從美國環(huán)境保護署下載了最大二氧化硫讀數等空氣質量數據;還從環(huán)境質量部下載了花粉數據;以及通過提取當月每天進行流感檢測的次數來計算季節(jié)性流感負擔等。
02 EHR中提取的臨床數據賦予模型預測性能更多價值
研究者使用LASSO、隨機森林和xgBoost構建Person-Month預測模型,由5組不同的預測變量(所有預測變量、時間因素、臨床因素、空間因素、簡約模型)訓練出15個不同模型,在三個不同的時間范圍(30天、90天和180天),預測兒童哮喘惡化的風險。通過計算預測事件發(fā)生率和曲線下面積(AUC)來比較不同模型的性能。
研究結果顯示,所有模型的短期預測性能優(yōu)于長期,xgBoost模型的性能名義上優(yōu)于使用LASSO或隨機森林的模型。在評估時間、空間和臨床因素對模型預測惡化風險的相對貢獻時發(fā)現,無論采用何種建模方法,臨床因素賦予了模型預測性能更多價值,時間因素賦予的預測價值偏低,空間因素的預測價值最小。以隨機森林預測模型30天時間范圍內的結果為例:基于臨床因素模型AUC=0.741,基于時間因素模型AUC=0.608,基于空間因素模型AUC=0.502,簡約模型AUC=0.672。
使用不同建模方法預測不同時間范圍和變量集的哮喘發(fā)作AUC
此外,研究構建的方便患兒和其父母提供必要信息的簡約模型,用來評估不同類型數據對模型性能的貢獻。由于xgBoost模型的性能結果更優(yōu)越,文章重點介紹了xgBoost模型的結果。經比較,簡約模型30天時間范圍AUC=0.664,使用所有數據元素的整體模型30天時間范圍AUC=0.761,基于臨床因素模型30天時間范圍AUC=0.742,故簡約模型在30天內哮喘惡化的預測性能不如整體模型和基于臨床數據的模型。同時也發(fā)現,臨床因素模型比起簡約模型,在所有時間范圍內的預測性能都更具優(yōu)勢。
不同建模方法創(chuàng)建的整體模型、臨床模型和簡約模型的比較
03 180天范圍內模型決策規(guī)則指標性能更好
最后,研究使用了基于臨床數據的每個模型評估了決策規(guī)則的性能,以指導臨床決策支持。通過計算Precision-Recall曲線來評估決策的影響,并評估不同切點的敏感性和陽性預測值。這強調了在將風險模型轉化為決策支持工具時考慮事件發(fā)生率的重要性。
對于30天的時間范圍,如果我們希望敏感度約為70%,使用xgBoost模型的PPV僅為2.9%;如果在180天的時間范圍,PPV則約為13.8%。同樣,如果在180天的時間范圍內獲得一個約15%的PPV,那么敏感度為66.2%;而在30天時間范圍內的敏感度則為1.5%。因而,基于敏感性和PPV的決策規(guī)則指標在長期即180天時間范圍內更好。
三個不同時間范圍內的敏感性和陽性預測值之間的關系
最后,研究者表示無法考慮所有可能對哮喘惡化產生重大影響的變量,包括藥物補充數據、室內環(huán)境和直接呼吸道病毒暴露。未來的研究將需要評估當前研究中無法包含的變量的重要性,并評估本研究中開發(fā)的模型對來自其他衛(wèi)生系統(tǒng)的患者群體的可移植性。
原文標題 : 納入環(huán)境數據能否提升CDS識別兒童哮喘風險的能力?

請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
技術文庫