隨著大數據時代的帶來,機器學習正改變著生物醫學的三大領域---臨床診斷、精準療法和健康檢測。作為臨床研究的新風口---利用機器學習方法構建和驗證臨床預測模型已經成為炙手可熱的研究領域。今天小編給大家分享2022年3月一篇機器學習結合生信的高分文章,由Yiran E. Liu研究團隊在Genome Medicine(IF:11.117)雜志上發表題為An 8-gene machine learning model improves clinical prediction of severe dengue progression的研究論文。本篇文章作者分析的數據是公共數據集,總所周知,數據質量直接影響著臨床預測模型的建模效果,從這一點來看,利用已有的公共數據集簡直就是為沒有高質量數據或數據收集成本高的研究人員量身定制啊!話不多說,直接開整!

一、研究背景
登革熱病毒(DENV)的全球發病率持續上升,局部爆發的頻率越來越高。早期識別 SD 進展者并及時給予支持性護理對于降低發病率和死亡率至關重要。世界衛生組織 (WHO) 在 2009 年推出了新的診斷亞分類:無警告標志的登革熱 (D)、有警告標志的登革熱 (DWS) 和重癥登革熱 (SD)。目前的研究有基于宿主反應的基因特征和使用臨床特征或基因組變異的機器學習模型。然而,由于預測能力不足、缺乏普遍性和/或缺乏簡約性,沒有一個能夠轉化為臨床實踐。因此作者訓練了一個 基于8 基因的XGBoost模型來預測 SD 的進展,從而能夠降低登革熱的發病率、死亡率和醫療保健負擔。
二、結果
1、鑒定與進展為嚴重登革熱相關的 8 基因組
作者搜索了截至 2019 年 8 月 1 日的 NCBI 基因表達綜合 (GEO) 存儲庫,通過查詢“登革熱”獲取通過陣列或高通量測序分析感染結果不同的人類登革熱患者的血液基因表達的數據集。排除與研究無關的信息,由此確定了11個公開可用的數據集,這些數據集存在生物學、臨床和技術異質性。利用這些數據集對365名登革熱患者的血液轉錄組進行了分析,其中 199人的癥狀不嚴重, 166人進展為SD,其中作者將單純性登革熱 (DF) 患者分類為“非重癥”,將登革出血熱 (DHF) 或登革休克綜合征 (DSS) 患者分類為“SD 進展者”。
接下來,作者使用MetaIntegrator在數據集上進行了迭代蒙特卡洛采樣的多隊列分析(圖1A),以識別非重癥患者和 SD 進展者之間的差異表達基因 (DEG)。 在所有迭代中發現了 25 個具有一致效應大小的顯著的差異表達基因(圖1B),在這25個基因表達基因中,作者執行了貪婪的前向搜索以確定最具預測性的基因集,由此得到三個上調基因和五個下調基因的 8 基因組(圖1C-D)。

2、構建模型以預測現有隊列中的嚴重登革熱進展
為了建立一個可推廣的模型來預測 SD 進展,作者將年齡作為一個混雜變量進行了檢查。此外由于許多公共數據集中缺乏樣本級別的年齡信息,無法將年齡作為變量包括在內。故作者采用非線性分類器以便更好地學習年齡、基因表達和登革熱嚴重程度之間潛在的復雜關系。
作者利用這八個基因作為特征訓練了 XGBoost 梯度提升樹模型。其中LTF、UQCRQ、TGFBR3和RASSF5??這四個基因共同對模型預測準確度的相對貢獻為72.9%(圖2A),結果表明,該模型AUC= 0.891 (95% CI 0.706-1),在Youden閾值下,具有 89.2% (95% CI 84.1–93.8) 的敏感性和 81% (95% CI 75.0–86.7) 的特異性(圖2B),這表明基于8 基因組 的XGBoost 模型具有更高的泛化性。但基于8 基因組 的XGBoost 模型應用于不同于模型訓練的公共數據集時,其效果不佳,故作者同時評估了基于20 基因組以及 8 基因組 XGBoost 模型。

3、在登革熱患者的前瞻性隊列中獨立驗證和與臨床警告信號進行比較
在收集獨立性數據階段,作者前瞻性地在哥倫比亞卡利和布卡拉曼加招募了 377 名 DENV 感染患者,出現 SD 的患者被排除在外。
首先作者分析了出現臨床警告信號預測是SD進展時的準確性。作者在就診時(即在進展為 SD 之前)收集全血樣本,并在整個感染過程中跟蹤患者(圖3A)。在就診時臨床警告信號預測是SD進展的敏感性為77.3% (95% CI 58.3-94.1),特異性為39.7% (95% CI 34.7-44.9)(圖3C)。在成人中,臨床警告信號預測是 SD 進展的敏感性和特異性分別為 66.7% 和 45.2%。在兒童中,臨床警告信號預測是 SD 進展的敏感性和特異性分別為90.0%和37.1%。
總的來說,出現臨床警告信號預測是SD進展的(陽性預測值)PPV為7.4% (95% CI 4.3-10.9), NPV(陰性預測值)為96.6% (95% CI 93.3-99.3),需要25.4例NNP,其中NNP 被定義為需要檢查以準確預測一名患者將進展為 SD 的登革熱患者的數量。
接下來,作者將基于8基因組的XGBoost模型應用到該獨立前瞻性隊列中,該模型預測隨后進展為 SD的AUC 為 0.844(95% CI 0.749-0.938),在 Youden 閾值下,其敏感性為 86.4%(95% CI 68.2-100.0),特異性為 79.7%(95% CI 75.5-83.9),陽性和陰性似然比為 4.3(95% CI 3.2–5.5) 和 0.2 (95% CI 0.01–0.4)(圖3C)。與臨床警告信號相比,8 基因模型的 PPV 和NPV顯著更高,NNP 減少了 80%。 8 基因模型的年齡差異無統計學意義(DeLong p = 0.19),相比之下,之前的 20 個基因組在成人中的表現比在兒童中的表現更差(DeLong p = 0.0026)。因此,與臨床警告信號相比,8 基因 XGBoost 模型改善了兩個年齡組的預測,并且比 20 基因組更具有普遍性。
此外,鑒于登革熱進展快速的性質,作者檢查了8 基因模型在疾病過程中的時間表現(圖3D-F)。8 基因模型可預測整個疾病過程中收集的樣本的隨后的 SD,此外,對于SD患者,8 基因模型其進展為 SD 的前三天預測也是準確的。
最后,作者利用三個公共數據集按照1997年WHO標準分析了8基因模型的性能,模型性能與 1997 年標準相當(AUC = 0.842, 95% CI 0.716-0.968)。
總的來說,這些結果證明了 8 基因模型的早期預后能力和普遍性,適用于在大型、獨立、前瞻性登記的隊列中收集的樣本。

4、臨床特征與 8 基因組模型預測概率的關聯性
作者接下來檢查了 8 基因組模型預測與相關臨床特征之間的關系。8 基因組模型預測的概率在先前接觸過 DENV 的患者中顯著高于未接觸過的患者,但該模型能準確區分了原發性或繼發性感染的 SD 進展者。此外,8 基因模型預測與體液積聚呈正相關,但與嘔吐、出血、腹痛或肝腫大無關,與峰值丙氨酸轉氨酶(ALT)和天冬氨酸轉氨酶(AST)呈顯著中度正相關,與血小板最低點呈中度負相關。
5、8 基因組模型對其他病毒感染的普遍性
作者評估了 8 基因組模型是否也可以預測其他病毒感染的嚴重程度。作者確定了四個獨立的隊列,包括 336名感染 SARS-CoV-2、基孔肯雅熱、流感或呼吸道合胞病毒 (RSV) 的患者。結果表明,8 基因組模型能區分輕度/中度感染與嚴重感染 SARS-CoV-2、流感和 RSV,但不能區分基孔肯雅熱,說明其在其他病毒感染中可能具有一定的區分能力。
三、討論
作者利用公開可用的登革熱數據集中大量的生物學、臨床和技術異質性,并確定了一個與 SD 相關的 8 個基因,從中構建了一個基于 XGBoost 的機器學習模型來預測向 SD 的進展。隨后在一個大型、獨立的前瞻性隊列中驗證了選定的 8 基因模型,結果表明應用于 SD 之前收集的血液樣本,8 基因模型準確地預測了 SD 的進展,包括在早期發熱階段。最后與普遍、非特異性和不夠敏感的臨床警告信號相比,8 基因模型將 NNP 降低了 80%,證明了轉化為用于 SD 預測的即時檢測的潛力。
采用機器學習來預測疾病進展的常規套路可算是被小編總結出來了!常規套路:
1、找到與疾病進展相關的差異表達基因。
2、基于差異表達基因采用機器學習的方法構建預測模型。
3、在獨立前瞻性隊列或新的數據集中驗證模型的準確性。
4、驗證模型的臨床效果。當然想要突破常規套路,就需要添加一些不同的分析,快快學起來,沖刺高分文章吧!
參考文獻
[1] Liu, Y.E., Saul, S., Rao, A.M. et al. An 8-gene machine learning model improves clinical prediction of severe dengue progression. Genome Med 14, 33 (2022).