機器學習方法是每一個生物信息從業人員都繞不開的能力要求,可以說生物信息領域研究,對生物醫學數據的挖掘和解析大都得益于有效的機器學習算法的選擇和應用。隨著近年來計算機算力的提升和硬件發展,機器學習的重要分支——以神經網絡為基礎的一眾深度學習模型再度走進大家的視野,并且在生物醫學研究領域取得了廣泛應用和迅猛發展。深度學習模型避免了人為干預的特征選擇過程,能夠自行完成對原始數據特征的表示學習,從而提取有效的特征,這一點對于識別有效的生物標志物十分關鍵,已經在復雜疾病診斷、預測和預后相關領域取得了廣泛應用。
目前,已經有不少的研究者開始探索將深度學習模型應用于開發精準的生物標志物,幫助有效的疾病管理。發表在Genomics Proteomics Bioinformatics(IF = 6.409,Q1)的研究Denoising Autoencoder, A Deep Learning Algorithm, Aids the Identification of A Novel Molecular Signature of Lung Adenocarcinoma. 就給我們提供了很好的借鑒思路。作者采用無監督度學習算法,自編碼器(Auto decoder)模型的拓展模型——去噪自編碼器(Denoising Autoencoder)直接處理高維的基因表達特征,從而構建魯棒的疾病生物標志物。自編碼器(Auto decoder)是一種較為成熟的無監督深度學習算法,能夠基于反向傳播與最優化方法算法,利用輸入數據本身作為監督,完成原始特征矩陣的非線性特征轉換,提取的低維特征能夠較好的反映原數據的特征。去噪自編碼器是自編碼器的拓展模型之一,會在輸入數據中引入噪聲,從而迫使編碼器的隱藏層捕捉更魯棒的特征。生物標志物的構建流程如下:

接下來我們借鑒該研究機器學習的方法設計了創新性新思路,對分析方法創新性、文章水平有更高要求的粉絲們要注意記筆記了!
二維碼
基于深度學習的疾病標志物挖掘與驗證
構建去噪自編碼器模型,進行特征提取
1、系統收集疾病樣本的轉錄組數據,進行多套數據ComBat批次矯正后整合。統計收集樣本的組織學亞型,給出臨床信息的統計表格。
2、基于整合后的表達譜進行PCA降維,觀察不同數據集之間是否仍有顯著差異。
3、基于ADAGE package構建去噪自編碼器模型(DAE)。提取特征節點。
篩選預后相關特征節點
基于特征得分的特征矩陣,計算每個節點的特征得分與患者OS的關聯篩選預后相關的特征節點,繪制森林圖。并基于每個節點的特征得分的中值分類樣本,繪制K-M曲線和log-rank檢驗。
探究預后相關特征節點的臨床可解釋性
探究腫瘤亞型、性別、分期、年齡分組等臨床特征分組之間特征得分是否顯著差異。
探究預后相關特征節點的生物學解釋性
探究基因組層面的關聯:探究預后相關特征節點得分與腫瘤突變負荷、同源重組修復缺陷得分(HRD),拷貝數變異負荷,瘤內異質性得分的相關性
基于MSigDB 獲得cancer hallmarks基因集合,基于ssGSEA計算hallmarks得分,計算預后相關特征節點得分與cancer hallmarks的關聯情況
探究特征節點反映的腫瘤免疫(代謝/調控機制)特征
這部分可根據研究關注點以及四中觀察到的關聯進行靈活調整,是一個深入分析。
以腫瘤免疫特征為例。
(1)探究特征節點得分與免疫檢查點基因表達水平的關聯(spearman)
(2)基于CIBERSORT或XCell計算免疫細胞浸潤,與預后相關節點的關聯分析。
基于關鍵特征節點構建疾病標志物
1、提取關鍵特征節點

2、提取權重top100的基因進行功能富集。

3、進一步基于生存時長中值分組樣本,保留生存分組之間表達差異顯著的基因。

4、構建具有可推廣性的預后特征:基于過濾得到的這部分基因的表達值與對應在特征節點中的權重乘積之和作為特征得分構建預后標志物。
標志物的預后效能
訓練集、獨立驗證集,基于單因素、多因素?ox 和 log-rank檢驗驗證預后標志物的效能。


該思路利用成熟的自編碼器深度學習模型,對原始的組學數據進行特征提取,并基于基因在新特征空間的映射,開發了有效的組織分型和預后標志物。機器學習挖掘手段是很有創新意義的,并且深度學習模型提取特征的也是很值得進一步拓展探究的方向。