好久不見,分外想念!機器學習作為一個讓人又愛又恨的領域對大家有著不同尋常的吸引力,愛是因為機器學習可以從大量的數據中挖掘其中蘊含的規律,恨是因為其中涉及到各種復雜的原理讓人頭痛!今天小編就帶大家一起閱讀一篇2022年9月22日發表在BRIEFINGS IN BIOINFORMATICS(IF:13.994)的機器學習相關文章吧!看看作者是如何使用機器學習算法挖掘預后和免疫治療相關特征!
Machine learning-based tumor-infiltrating immune cell-associated lncRNAs for predicting prognosis and immunotherapy response in patients with glioblastoma
基于機器學習的腫瘤浸潤免疫細胞相關lncRNAs預測膠質母細胞瘤患者的預后和免疫治療反應
研究背景
長期以來,lncRNAs與腫瘤免疫調節有關。然而,免疫細胞特異性lncRNAs在膠質母細胞瘤(GBM)中的作用尚不清楚。 本研究采用6種機器學習算法,綜合分析純化的免疫細胞、GBM細胞株和GBM組織的轉錄組數據,構建了一個新的計算框架,用于篩選腫瘤浸潤免疫細胞相關的lncRNAs(TIICLNC)以開發TIICLNC signature。 結果表明,TIICLNC signature可以在四個獨立的數據集中區分GBM患者的生存結果,更重要的是,在膠質瘤中顯示出優于95個先前建立的signature集的性能。 TIICLNCsignature可作為免疫細胞浸潤水平的指標,并可預測免疫治療的療效。 在湘雅實驗室數據集上驗證了TIICLNC signature與CD8、PD-1和PD-L1的正相關關系。 作為一個新發現的預測性生物標志物,TIICLNC signature能更精確地篩選從免疫治療中受益的GBM人群,并應在不久的將來得到驗證和應用。
主要結果
TIIClncRNAs的鑒定
為了全面評價免疫細胞相關的lncRNA,從16個數據集(GSE13906, GSE23371,GSE25320, GSE27291, GSE27838, GSE28490, GSE28698, GSE28726,GSE37750, GSE39889, GSE42058, GSE49910, GSE51540, GSE59237,GSE6863 、GSE8059)中篩選出由19種免疫細胞類型組成的純化細胞系(圖1)。 在每種免疫細胞中的表達水平排名前15%的LncRNAs有546個,這些LncRNAs被認為是候選的免疫相關LncRNAs。 隨后,計算候選免疫的lncRNAs的TSI得分,以識別在不同免疫細胞類型中普遍表達的hklncRNAs(在所有免疫細胞中高表達的lncRNAs)。TSI得分較低的lncRNAs在所有19種免疫細胞中均高表達,表明它們在免疫中發揮重要作用。 在設定TSI<0.2的閾值后,鑒定出308個對調節細胞免疫至關重要的HKLncRNAs。 然后,從308個HKLncRNAs中鑒定出152個在免疫細胞系(上調)和GBM細胞系(下調)之間差異表達的HKLncRNAs,并將其視為GBM 的TIICLncRNAs。

構建TIIClnc signature
進一步應用LassoLR、Boruta、XGBoost、SVM、Random Forest和PAMR六種機器學習算法,從152個GBM的TIIClncRNAs中識別出16個最有價值的TIIClncRNAs(圖2A)。 采用單因素Cox回歸分析,篩選出對GBM患OS有預后價值的TIIClncRNAs。 在TCGA GBM數據集中識別出12個TIIClncRNAs。 最后,根據TCGA GBM數據集中所有可能的預后TIICLNCRNAs組合的估計回歸系數進行加權,構建TIICLNC signature。 基于高斯混合模型(GMM)進行分類,其中有八個聚類4095個組合(圖2B)。 在TCGA GBM數據集中最大的1年AUC由三個TIICLNCRNAs構成(圖2B)。即:
TIICLNC signature=(0.5751*LINC00894表達值)+(1.0609*LOC100506585表達值)+(1.0639*LOC100507156表達值)。
在TCGA 、CGGA、GSE108474以及湘雅隊列中,高TIILNC特征評分的GBM患者的預后更差(圖2C、E、G和H)。 TCGA一年生存的AUC為0.727(圖2D)。湘雅隊列一年生存 AUC值為0.705(圖2F)。單因素和多因素Cox回歸分析證實TIICLNC特征是TCGA GBM數據集中的一個獨立危險因素(圖2I)。

TIICLNC signature與已發表signature的預后價值比較
為了檢驗TIICLNCsignatures的預后性能,作者分析了95個signatures,包括lncRNA和mRNA,并比較了TCGA和湘雅數據集的1年AUC。 這95個特征與多種生物學特征有關,包括免疫浸潤、自噬、鐵死亡、焦亡、上皮間質轉變、缺氧、表觀遺傳學、N6-甲基腺苷等。TIICLNC signatures比任何其他signatures擁有更好性能(圖3)。

TIICLNC signature表現出顯著的免疫相關特征
高TIICLNC組表現出較高水平的免疫浸潤細胞和免疫調節劑,與膠質瘤亞型、IDH突變和O6-甲基鳥嘌呤-DNA甲基轉移酶甲基化無關,表明炎癥但相對免疫抑制的微環境,是免疫治療的潛在受益者(圖4A和B)。還比較了高分組和低分組之間與免疫反應性更強的微環境相關的MSI、TMB、CYT、GEP、TCR、IFN-γ和IPS的狀況。結果發現,在高得分組中,這些特征都處于較高水平(圖4C-F)。

預測與TIIClnc signature相關的生物學機制
由于高分組免疫上調,接下來探究高分組的潛在生物學機制。在TCGA和湘雅數據集上,高分組在抗原釋放、癌癥抗原呈遞、引發和激活、免疫細胞募集和浸潤、癌細胞識別和癌細胞殺傷等癌癥免疫循環中更為活躍(圖5A)。TIIClnc signature與半乳糖代謝和鞘脂代謝等多種代謝通路呈正相關(圖5B)。此外,TIIClnc signature與多種免疫通路出強相關,包括巨噬細胞細胞因子產生、T細胞分化、T細胞活化等(圖5B)。此外,在TCGA和湘雅數據集的免疫圖雷達圖所示的高評分組中,TME相關特征顯著上調(圖5C和D)。GSEA富集分析顯示,高TIIClnc signature組富集在巨噬細胞活化、DC趨化、IFN-γ產生和T細胞增殖調節(圖5E)以及MAPK、NF-kappa B、mTOR和PI3K-Akt信號通路(圖5F)。總之,結果顯示TIIClnc signature得分高的患者在免疫療法下免疫應答更強。

在多個數據集中驗證TIIClnc signature的預測
由于TIIClnc signature對免疫治療的預測能力,作者接下來驗證了多個免疫治療數據集的效率,包括 IMvigor(尿路上皮癌)、GSE91061(黑色素瘤)、GSE165252(食管腺癌)、GSE35640(黑色素瘤)、GSE103668(三陰性乳腺癌)、GSE78220(黑色素瘤)和 PRJNA482620(GBM)。如圖6A-H 所示,高分組具有更好的免疫治療反應和更長的生存時間。從 TIDE 和 submap 生成的列聯表也有與上述相同的結果(圖6I和J)。然而,GBM數據集(PRJNA482620)生存分析顯示了相反的結果(圖6K)。隨后,在湘雅內部數據集中驗證了TIIClnc signature的預測價值。如散點圖所示,TIIClnc 得分與已知的免疫治療指標 CD8、PD-1 和 PD-L1 呈顯著正相關(圖 6L、N和M)。總之,具有高 TIIClnc signature的患者可能會從免疫治療中獲益更多。

總結
文章到這里就結束了!不同于以往的文章,這篇文章結合多種機器學習的方法篩選特征,構建免疫相關的預后模型。機器學習作為當下非常火熱的方向,是不是也吸引著很多小伙伴?這篇文章就為我們提供了不錯的思路!海量的數據,成熟的機器學習算法都已經具備,下一個10+文章說不定就是你的哦!