膠質瘤是最常見的腦部惡性腫瘤,患者的平均生存時間為18月。對患者的生存時間基于分子標志預測,可以找出具有具有治療潛力的患者。通過匯總多個模型的預測結果,可以構建更加具有魯棒性,范化能力更強的模型,這在機器學習中被稱為集成學習(ensemble learning),9月22日來自青島大學研究者的論文“The genetic algorithm-aided three-stage ensemble learning method identified a robust survival risk score in patients with glioma”,介紹了結合遺傳算法,集成學習的生存時間預測模型。該文將詳細介紹其算法原理。
論文鏈接:https://academic.oup.com/bib/article-abstract/23/5/bbac344/6694808?redirectedFrom=fulltext&login=false
1)如何訓練生存率預測算法
算法的訓練數據,來自11個公開數據庫的集合,包含患者的RNA表達譜和生存時間。其中來自TCGA和CGGA693這兩個樣本量較大的數據集被用作訓練數據集,而全部數據集(總計1191個樣本)被當作測試數據集。
在模型訓練的第一階段,使用TCGA數據集通過基因配對(gene-pairing)算法進行特征提取,以避免批次效應;訓練的第二階段,在CGGA693數據集上,通過10疊交叉驗證,在47個基礎預測模型(例如隨機森林,決策樹,支持向量機)上通過對參數的網格搜索,找出最優的模型參數組合;而在第三階段,在TCGA數據集上,通過遺傳算法,從第二階段訓練得出的模型中,找出最優的三個模型,作為最終進入集成學習框架的三個基礎模型。之后在所有11個來源的數據集上,對訓練的模型進行評價。

圖1:預測算法訓練三階段的示意圖
具體來看每一階段的訓練過程,根據醫學信息,選取217個關鍵基因,之后通過Cox回歸,找出203個關鍵基因,用于進一步的特征工程。之后將剩下了的203個基因兩兩配對,形成203*202個基因對,根據下圖的公式,進行配對。之后對于每個樣本,判斷配對所處的頻率所在的相對位置,選取位于20-80%的基因對(去除那些在該批次中的表達量大多是存在相關性,即A在大多數時大于或小于B的基因對),以避免批次差異。經此過程選出的6300個基因對,通過與生存時間做Lasso回歸,選出最終用做特征的40個基因對。


圖2:基因對算法去除批次效應的效果,a是各個基因對PCA降維后的結果,b與c是各個數據集上,基因組合在去批次效應之前的降維結果,d是去除異常值之后,對剩余的基因對表達量的降維結果,可見去批次效應之前,降維結果顯示不同批次聚在一起,去除后則相對均一。
之后的原始的預測模型訓練,在新數據集CGGA693上利用上一階段得到的特征,在47個模型上,通過10折交叉驗證和網格搜索,依次尋找每個模型下的預測準確性最高的參數組合。在第三階段,依舊使用同一批數據,使用遺傳算法,找出采取那些模型的組合,能夠以更高的效能進行生存時間預測。以選取那些模型組合作為基因型,以集成學習后預測誤差為表型。最初選取隨機組合的預測模型作為基因型,通過不斷的模擬進化過程(讓模型組合經過點突變和重組),再通過其預測準確性作為適應度,選擇下一代模型組合的“物種池”,以此找出選取那些模型組合進行集成學習時,預測的準確性最高。最后在全部數據集組成的樣本集合上,評價模型的準確性。
2)如何評價生存率預測算法
預測過程中,考察了診斷后從第一年到第五年的生存率(使用ROC評價),并通過泛癌癥分析,在五種不同的癌癥下,使用訓練的模型進行預測。作者還提供了一個在線工具https://sujiezhulab.shinyapps.io/3S_score/,用戶可通過上傳數據,使用訓練好的模型進行生存率預測,該工具可作為對膠質瘤患者基于轉錄組數據進行風險評估的易用工具。
評價時先按照生存率預測,將患者分為兩組,計算不同風險組的Kaplan–Meier s生存時間曲線,在11個數據集中的每一個,以及組合后測試集上,可以看到兩組的生存率有顯著差異。

圖3:在不同數據集上,高風險與低風險組生存率曲線
之后判斷針對個體患者的1年,3年,5年的生存率預測,通過ROC曲線評價預測準確性,結果見圖4.

圖4:不同數據集上,最終訓練得出模型針對患者1,3,5年生存概率預測的ROC曲線。在所有樣本的數據集上,第一年生存率ROC為0.705, 第三年為0.825,第五年為0.839
為了說明模型預測的魯棒性,通過將樣本和標簽置換(npermutation test),重新計算ROC,發現新預測的結果和之前的結果是相近的,這說明模型是學到了數據間的特征,而非僅僅記住數據標簽。

圖6,經過300次標簽置換(permutation test)后,模型的預測準確性差異不大

圖7。A,模型的可解釋性,將各個基因表達量對應的風險值。B,基于膠質瘤訓練的模型在其它6種癌癥上預測得出的風險高與低兩組對應的生存曲線存在顯著差異。
3)總結
該論文的亮點,不僅在于提供了一個簡單易用的,對膠質瘤及其它癌癥患者基于轉錄組數據預測預后效果(生存率)的在線工具,更在于提出了一種可以借鑒的生信分析思路,即先通過搜集不同來源的公開數據集,之后通過判斷組間數據的相關性,選出不存在組間依賴的特征集合,以此去除批次效應。之后批量訓練各類預測模型,再通過諸如遺傳算法的組合優化算法,找出使用那些分類器集合后的預測效果最佳。通過類似的套路,可以對各種癌癥,使用多組學,多來源進行類似的模型構建,預期也會產生比單一預測模型,或基于所有基礎預測模型的集成學習更優的結果。