癌癥轉(zhuǎn)移是指腫瘤細(xì)胞從原發(fā)部位擴散,通過侵襲淋巴管和血管在原發(fā)部位以外的其他部位繼續(xù)生長形成腫瘤的過程。轉(zhuǎn)移是癌癥發(fā)病和死亡的主要原因,據(jù)報道轉(zhuǎn)移死亡是所有癌癥死亡的90%。許多癌癥患者在治療效果較好的情況下預(yù)后較好,但是一旦發(fā)生轉(zhuǎn)移將增加后續(xù)診斷和治療的困難。為了提高癌癥治愈率,有效的預(yù)測癌癥患者是否發(fā)生轉(zhuǎn)移十分重要。因此,今天小編給大家介紹一篇2022年發(fā)表在Briefing in Bioinformatics上的文章,這篇文章作者提出一種嵌入圖學(xué)習(xí)(GL)模塊的圖卷積網(wǎng)絡(luò)——glmGCN,可以準(zhǔn)確預(yù)測癌癥的遠(yuǎn)端轉(zhuǎn)移。下面,就讓我們來一起學(xué)習(xí)一下吧~

流程圖:

數(shù)據(jù)
作者從TCGA數(shù)據(jù)庫下載4種癌癥類型的FPKM數(shù)據(jù)集,分別為宮頸鱗狀細(xì)胞癌CESC(397例),胃癌STAD(407例),胰腺癌PAAD(182例)和膀胱癌BLCA(427例)。共包括19814個mRNAs和14851個lncRNAs。差異表達(dá)分析后,CESC數(shù)據(jù)集得到1515個DEGs,STAD得到4122個DEGs,PAAD得到116個DEGs,BLCA得到2767個DEGs。由于各個數(shù)據(jù)集中轉(zhuǎn)移樣本和未轉(zhuǎn)移樣本不平衡,因此作者使用SMOTE對數(shù)據(jù)集進(jìn)行平衡,各個數(shù)據(jù)集的樣本數(shù)量如表1所示。

方法
1.圖學(xué)習(xí)模塊
作者根據(jù)STRING數(shù)據(jù)庫中的PPI網(wǎng)絡(luò)和各個數(shù)據(jù)集的DEGs構(gòu)建每種癌癥類型的PPI網(wǎng)絡(luò)。根據(jù)PPI網(wǎng)絡(luò)構(gòu)建鄰接矩陣A,其中如果兩個基因沒有互作邊的話則對應(yīng)A中的位置為0,如果兩個基因存在互作邊的話則對應(yīng)A中的位置為打分值。作者基于基因表達(dá)矩陣G和鄰接矩陣A構(gòu)建非線性函數(shù)S。作者根據(jù)損失函數(shù)優(yōu)化權(quán)重向量α和Ppj,隨后,權(quán)重矩陣使用損失函數(shù)進(jìn)行優(yōu)化。
2.圖卷積網(wǎng)絡(luò)
本研究提出方法的創(chuàng)新之處在于在GCN上添加了GL層,GL層學(xué)習(xí)圖表示S并將S用于圖卷積層。圖卷積模型包括一個輸入層,多個隱藏層和一個輸出層。其中隱藏層由一個GL層,兩個圖卷積層和多個全連接層組成。在GL層和卷積層之后對參數(shù)進(jìn)行優(yōu)化,使用變平層將特征圖轉(zhuǎn)化為一維向量。使用多個全連接層映射分布式特征,使用softmax進(jìn)行最終預(yù)測。
結(jié)果
1.特征可視化
首先,作者使用T-SNE和glmGCN的最后一層全連接層提取出的特征對CESC和STAD數(shù)據(jù)集進(jìn)行可視化(圖1),從圖中可以看出使用原始特征不能準(zhǔn)確區(qū)分轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本,而使用glmGCN提取的特征可以將兩類高度分離。

2.與GCN方法比較
作者將glmGCN模型的結(jié)果與GCN模型的結(jié)果進(jìn)行比較,兩個模型的區(qū)別在于GCN直接使用PPI網(wǎng)絡(luò)表示基因的互作而glmGCN在GCN網(wǎng)絡(luò)上添加GL層來得到新的基因互作關(guān)系。兩個模型的結(jié)果如表2和表3所示,對于CESC數(shù)據(jù)集來說,glmGCN的準(zhǔn)確率(ACC),特異性(SEN),F1-SCORE和AUC分別提高了0.61%,1.21%,0.62%和0.0017。對于STAD數(shù)據(jù)集來說,glmGCN的ACC,SEN,F1-SCORE和AUC分別提高了0.77%,1.64%,0.83%和0.0008。此外,圖2中g(shù)lmGCN的ROC曲線略高于GLCN。



3.改進(jìn)的GL層的影響
其次,作者將glmGCN與GCN添加普通GL層(GCNGLY)進(jìn)行比較,結(jié)果見表4,表5和圖3。從圖中可以看出,作者的算法在CESC和STAD數(shù)據(jù)集上均取得了更好的性能。



4.與深度神經(jīng)網(wǎng)絡(luò)(DNN)比較
第三,作者將glmGCN與DNN進(jìn)行比較,結(jié)果見表6和表7。對于CESC數(shù)據(jù)集來說,幾乎所有指標(biāo)都有提高。對于STAD數(shù)據(jù)集來說,ACC提高了3.88%,SEN提高了8.32%,F(xiàn)1 SCORE提高了4.25%,AUC提高了0.0313。ROC曲線同樣表明glmGCN模型的性能優(yōu)于DNN(圖4)。



5.與non-deep方法比較
第四,作者將glmGCN模型與機器學(xué)習(xí)方法如SVM,LR和RF等方法進(jìn)行比較。結(jié)果如表8,表9和圖5所示。結(jié)果表明,對于CESC和STAD數(shù)據(jù)集來說RF的ACC和AUC最高分別為98.74%,94.95%和99.09%和98.28%。對于CESC來說,glmGCN的結(jié)果有些許提高,而對于STAD來說,glmGCN的ACC提高了2.44%,AUC提高了0.01。



6.其他數(shù)據(jù)集的驗證
最后,作者在PAAD和BLCA兩個數(shù)據(jù)集進(jìn)一步驗證glmGCN模型的性能。與CESC和STAD數(shù)據(jù)集的分析類似,作者使用三種方法進(jìn)行了比較分別為基于GCN的方法,基于DNN的方法和non-deep方法。PAAD和BLCA數(shù)據(jù)集的比較結(jié)果如表10,表11和圖6所示。對于PAAD數(shù)據(jù)集來說,non-deep方法的準(zhǔn)確率高于基于GCN的方法和基于DNN的方法。除了glmGCN的結(jié)果外,ACC和AUC最高分別為78.53%和0.8471,相較于glmGCN來說,glmGCN分別提高了1.03%和0.0052。對于BLCA數(shù)據(jù)集來說,基于GCN的方法由于non-deep方法和基于DNN的方法。除了glmGCN的結(jié)果外,ACC和AUC最高分別為91.39%和0.9532,相較于glmGCN來說,glmGCN分別提高了0.65%和0.013。為了保證作者提出方法的可靠性和穩(wěn)定性,作者使用了10折交叉驗證且重復(fù)三次。



結(jié)論
在本研究中,作者提出glmGCN算法用于鑒定癌癥的遠(yuǎn)端轉(zhuǎn)移樣本。作者將glmGCN應(yīng)用于4種癌癥類型并與基于GCN的方法,基于DNN的方法和non-deep方法進(jìn)行比較來驗證glmGCN的準(zhǔn)確性。總的來說,根據(jù)glmGCN提取的特征可以大致區(qū)分轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本。此外,對于分類性能來說,glmGCN的性能優(yōu)于基于GCN的方法,基于DNN的方法和non-deep方法。這篇文章作為基于深度學(xué)習(xí)的分類算法研究來說,對小編的啟發(fā)很大,小伙伴你有多少收獲呢~