一、前言
癌癥是一個定義松散的術語,它是指具有獲得病理特性的細胞,這部分細胞喪失細胞周期調節、具有高的增殖率,以及喪失接觸抑制導致周圍組織侵襲。隨著時間的推移,癌細胞破壞所在組織的正常功能,并可能轉移到其他組織。癌基因有助于細胞轉化,而抑癌基因則阻止異常細胞增殖。
除癌基因和抑癌基因的突變外,在癌癥類型的亞組中還發現了導致癌癥發生和進展的癌癥驅動突變。雖然這些遺傳改變是多種多樣的,但癌癥中改變的基因通常集中在一些參與腫瘤發生的分子機制上。這些通路具有廣泛的影響,涵蓋細胞周期、炎癥和細胞凋亡等。因此,它們在癌癥中發揮作用的機制是高度多樣化和分子異質的,但它們也是相互關聯的。
先前的研究試圖利用這些預測的癌癥共同特征來訓練計算模型,以區分腫瘤與正常樣本,或區分不同的腫瘤類型。通常,這些研究依賴于蛋白質編碼基因表達數據與深度神經網絡(或其他機器學習算法)相結合,將樣本分為兩個或多個類類別。這些研究表明,機器學習模型可以在一定的條件下,成功區分正常組織和腫瘤組織。
但是,這些方法一般基于功能或差異表達來預先選擇基因,或者在模型訓練之前去除通過自動選擇識別的冗余基因,使模型無法了解有助于癌癥轉錄組特征的潛在新基因。另一方面,此類方法的應用尚未在大型異質組織集上進行測試。
一篇最近發表在Genome Biology[IF:13.583]上的文章,作者利用深度神經網絡的預測能力以及增強積分梯度 (EIG:enhanced integrated gradients)方法——一種用于深度神經網絡解釋的方法,它生成歸因值(Attribution values)作為模型中每個生物輸入特征的權重或重要性的度量,來識別大量腫瘤類型的常見轉錄組特征,從而描繪一個適用于大多數實體腫瘤類型的癌癥分子譜。

二、數據和方法
1.數據:來自 TCGA、GTEx 以及其他 12 個數據集的癌癥及正常樣本的RNA-seq數據 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9112525/bin/13059_2022_2681_MOESM2_ESM.xlsx
三、結果
1、用蛋白質編碼基因表達訓練的前饋神經網絡區分正常組織和癌組織
為了揭示通常定義癌癥狀態的轉錄組學特征。 對來自 GTEx 和 TCGA 的 11 對正常組織及腫瘤配對樣本進行差異基因表達分析,然后查看失調基因中的overlap,結果表明僅有很少的蛋白質編碼基因在六種或更多腫瘤類型中始終上調或下調[Fig.1a]。為了克服對常見癌癥轉錄組特征幼稚研究的局限性,作者試圖訓練能夠區分正常和癌癥樣本的可解釋深度學習模型。
首先,整合一個大型RNA-Seq數據集,包含19種正常組織類型和18種腫瘤類型的13,461 個樣本,并將數據分為反映癌癥狀態的兩類:正?;蚰[瘤[Fig.1bc]。同時,使用12個較小的數據集來校正特定于數據集的偏差,這些數據集要么僅包含腫瘤樣本,要么僅包含來自同一患者的腫瘤和配對的正常樣本。作者還考慮了一個替代的方法——均值校正,例如常用的COMBAT方法,但這種方法嚴重限制了可用于模型訓練的數據和基因集。
然后,使用來自19,657個蛋白質編碼基因均值校正的表達數據,來訓練一個自動編碼器進行降維;使用有監督的深度神經網絡來預測癌癥狀態。在驗證集上調整模型超參數(學習率、隱藏層、節點數、激活函數和丟失概率),并使用驗證集上性能最佳的超參數來修復模型架構。
最后,為了確保模型不會學習特定于數據集的偏差,使用一個額外的數據集評估該模型的效能。結果表明,蛋白質編碼基因表達模型能夠精確的預測樣本來自正常組織還是腫瘤組織[Fig.1efg]。
為了評估該模型對于其他癌癥類型的效能(訓練集未包含該癌癥類型),從三個額外的數據集中組織了一個新的數據集(包含正常細胞和惡性血液細胞);在不進行批次校正的情況下,評估深度學習模型表現。令人驚訝的是,盡管訓練集和測試集數據之間存在顯著差異,但該模型仍舊能夠成功地將正常和癌癥樣本與血液區分開來[Fig.1h]。
另外,在相同的數據集中訓練支持向量機和隨機森林模型,作者發現,雖然在相同的獨立數據集上進行測試,三個模型的效能相似。但當將支持向量機模型和隨機森林模型用于血液數據集時,這兩個模型完全失效[Fig.1h]。這表明,與常用的機器學習方法相比,深度神經網絡模型更準確、更穩健。

2、lncRNA表達或剪接位點使用曲線足以定義癌癥狀態
其他類型的轉錄組特征,包括lncRNA表達和RNA剪接,已被用作預后標志物或預測癌癥中的藥物應答。同時,少量位于lncRNA基因中的突變或破壞蛋白質編碼基因中的剪接已被證明會驅動癌癥發生。但是,目前尚不清楚lncRNA表達或RNA剪接的廣泛變化是否是癌癥發生的廣泛特征。作者嘗試使用這些轉錄組學特征來區分正常組織和腫瘤組織。
使用相同的方法訓練lncRNA模型和剪接點連接數據模型,值得注意的是,這些模型分別實現了 98.57% ± 0.1% 和 98.78% ± 0.09% 的準確度,具有高 AUPRC。正如蛋白質編碼基因表達訓練模型所觀察到的那樣,該模型在lncRNA基因表達數據上和剪接點使用訓練模型上始終表現良好[Fig.1fg],這些結果進一步支持我們的模型的穩健性,因為它能夠識別真正的生物信號而不是混雜因素。
3、深度學習網絡的解釋揭示了表征癌癥狀態的新轉錄組學特征
鑒于深度學習模型的高性能,作者想知道在我們的每個模型中,哪些轉錄組學特征是最重要的,以及這些特征是否主要由已知與癌癥遺傳相關的基因組成。為此,作者使用增強的積分梯度(EIG)生成了稱為腫瘤樣本歸因值的特征重要性評分。
Ref:Enhanced integrated gradients: improving interpretability of deep learning models using splicing codes as a case study. Genome Biol. 2020
選擇腫瘤類型中,具有較高歸因值的蛋白質編碼基因、lncRNA或剪接點,作為高歸因值集合;同時選擇歸因值接近于零的的特征作為參考的Neutral集合[Fig.2a]。在14種腫瘤中探究癌癥類型特異的歸因值時,作者發現歸因值前100的特征,在幾乎所有腫瘤樣本中都具有高的歸因值[Fig.2b]。這表明,深度學習模型不是由樣本量大的癌癥類型中的異常表達或剪接點使用驅動,而是依賴于癌癥的常見轉錄組學特征。
先前的差異分析表明,所有腫瘤類型中沒有基因以相同的方式顯著失調。與差異表達分析一致,作者發現給定基因的歸因值的正負不一定反映癌癥中基因表達的變化情況。也就是說,具有正歸因值的基因不一定在大多數癌癥中表達上調,或,具有高負歸因值的基因不一定在大多數癌癥中表達下調。因此,該模型的解釋不是突出在許多癌癥類型中相似變化的基因或剪接改變,而是暴露出癌癥中始終偏離正常的轉錄組變異。
接下來,作者試圖評估已知癌基因或抑癌基因與該模型歸因值之間的關系。作者發現了一個顯著的區別——癌基因獲得正歸因,而抑癌基因獲得負歸因值[Fig.2c]。然而,相對于模型中識別的該歸因值特征,大多數癌基因或抑癌基因獲得較低的歸因值,甚至一部分歸因值接近于0。作者只觀察到一小部分高負歸因值的基因在COSMIC基因中富集[Fig.2de]。

4、表征癌癥狀態的轉錄組特征的遺傳改變頻率
接下來,作者想知道高歸因基因中以前未報告的遺傳改變是否可能推動模型強調的轉錄組變異。作者在TCGA樣本中證實了高歸因值基因幾乎不攜帶驅動突變[Fig.3a]。但分析表明,具有高負歸因值的基因的樣本展現了更高的乘客突變頻率,相比于Neutral集合來說[Fig.3b]。同時,結構變異的頻率雖然在高歸因基因中高于其參考的Neutral集合,但在所有高歸因基因組中都低于COSMIC基因[Fig.3c]。同樣,高歸因基因受擴增或缺失事件影響的頻率與Neutral集合或 COSMIC 基因沒有顯著差異[Fig.3de]。

總體而言,深度學習模型確定的癌癥轉錄組學特征并不經常受到遺傳改變的影響,這表明從模型中獲得的癌癥表達和剪接模式不是由這些基因的遺傳變異驅動的。
5、定義腫瘤狀態的轉錄組學特征的高度進化和選擇性限制
在通過表達或剪接連接使用建立了具有高歸因值的基因列表,并發現這些基因中的大多數與COSMIC癌基因或抑癌基因不對應之后,作者試圖探究深度學習模型中具有高歸因值的轉錄組學特征,是否具有表明細胞中重要作用的特性。
作者發現,和Neutral集合相比,模型中具有高歸因值的蛋白質編碼基因,lncRNA基因和相對應的剪接連接的基因具有高度的進化保守性[Fig.4a]。同時,相對于參考的Neutral集合,具有高負歸因的蛋白質編碼基因以及正歸因值負歸因值的lncRNA顯著的更長,但高歸因值的剪接連接的基因顯著的更短[Fig.4b]。具有高歸因值的蛋白質編碼基因和剪接連接基因對功能喪失突變展現了更高的選擇性壓力[Fig.4c]。最后通過pyknons方法,發現高歸因值的lncRNA基因攜帶比Neutral集合更高的pyknons密度[Fig.4d]。

6、具有高歸因值的剪接連接的表征
雖然很容易想象基因表達水平的變化如何驅動腫瘤發生,但解釋剪接變化對疾病的影響并不那么簡單。因此,作者試圖預測具有高歸因值的可變剪接連接如何影響蛋白質序列和功能。
作者首先注意到,高歸因連接被預測會破壞基因的reading frame(閱讀框架)。先前的研究表明,替代剪接可以通過靶向無序區域來調節蛋白質蛋白質相互作用。因此,作者研究了與可變剪接連接上下游兩個外顯子相對應的肽序列的預測無序性,但發現預測的肽無序水平在高歸因連接中與在集合中觀察到的無差異。
然后,使用NCBI保守結構域數據庫,通過預測從高歸因連接上游和下游的兩個外顯子編碼的蛋白質結構域,評估高歸因剪接連接是否會影響已知的蛋白質結構域。有趣的是,10個基因中的11個剪接連接會影響蛋白激酶C樣超家族結構域的一部分轉錄本匹配序列[Fig.5]。作者還發現了額外的高歸因剪接點,它們影響與癌癥信號傳導相關的其他結構域。

7、在癌癥中具有高正歸因值或負歸因值的基因的對比功能
最后,鑒于模型中的大多數蛋白質編碼基因或具有高歸因值的剪接點的基因以前與癌癥無關,作者試圖了解這些基因的功能。首先,作者發現,通過表達識別的具有高歸因值的基因與通過剪接點使用具有高歸因值的基因,存在很大的差異[Fig.6a]。
對具有高歸因值的蛋白質編碼基因進行GO分析,發現具有高負歸因值的蛋白質編碼基因富含與轉錄、有絲分裂、組蛋白修飾、染色質調節和定位到中心體相關的功能,符合傳統癌癥觀點。而具有高正歸因值的蛋白質編碼基因在轉錄后和翻譯后修飾方面富集。同時,具有高歸因值的剪接連接點的基因也富含與RNA加工相關的功能。另一方面,與生物學過程(BP)相關的富集圖顯示,通過表達或剪接的高正歸因基因形成高度互連的網絡,其核心與與 RNA 生物學相關的功能有關[Fig.6b]。與高歸因基因相關的分子和細胞功能的Ingenuity Pathway分析證實,高負歸因基因的功能與高正歸因基因的功能不同,轉錄和RNA加工在兩組中分別占據主導地位[Fig.6c]。

最后,基因集富集分析揭示了高負歸因值的基因富集在KRAS信號通路上,而通過表達或剪接具有高正屬性的基因沒有發現顯著的富集(Fig.6d)。因此,雖然在癌癥中具有高負歸因值的基因具有已知癌基因和抑癌基因的功能,包括它們如何與基因組維持和轉錄有關,但通過表達或剪接具有高正歸因的基因具有不同的功能,其中一些與RNA調控和RNA處理有關。
四、結論
本篇文章通過訓練一個深度學習的前饋神經網絡,以使用轉錄組特征來區分正常和腫瘤樣本。同時發現,使用lncRNA表達和剪接連接使用與使用蛋白質編碼基因的表達數據訓練的模型效能一致??傊酒恼聻槲覀兊难芯刻峁┮粋€新的思路,深度學習模型可以解決傳統方法無法解決的問題。