目前公開數據庫中,已有數以百萬計的轉錄組數據,然而缺少有效地方法,以利用現有數據解釋新的實驗結果。今年6月27日Nature Communication的論文[1],提出一種名為GenomicSuperSignature的計算方法及對應的R/Bioiconductor包。該方法基于來自536項研究,總計44,890個人類 RNA 測序圖譜,通過主成分分析,得到可復制的變異軸(RAV),RAV 使用原始研究的元數據和基因組富集分析,對新的表達譜進行注釋。將新數據集與 RAV 關聯,能夠提取可解釋的注釋,還可以提供直觀可視化功能。使用 TCGA 和罕見病數據集,驗證了該方法可進行高效地數據庫搜索,對包含批次效應和異構的訓練數據以魯棒的方式進行遷移學習。總結來看GenomicSuperSignature可利用較少的計算資源,在現有數據庫的上下文中分析新的基因表達數據。

鏈接:https://www.nature.com/articles/s41467-022-31411-3
降維已被廣泛應用于將高維度的轉錄組轉換為數量較少的代表共表達的潛在變量中,通過這些低維的潛在變量,可檢測生物標志物,例如由共享功能,表達調控、組織成分或細胞類型以及批量效應引起的基因共表達。在這些因素的共同作用下,降維可以解釋新數據,減少所需多重假設檢驗次數,但也可能導致不完整或誤導性的解釋。通過將新數據集中的潛在變量與公共轉錄組數據庫中的潛在變量進行比較,可以改進解釋的魯棒性。
GenomicsuperSignature 作為一個探索性數據分析工具,將新表達譜經過主成分分析得到的PC軸與之前發布的獨立數據集中表示的可復制變異軸(replicable Axes of variable,RAV)的注釋索引進行匹配。由于RAV 作為由多個以前研究得出的,定義良好且可復制的潛變量,可代替從頭開始定義的潛變量,用以遷移學習。通過使用預先構建的、預先注釋的、降維的 RAV,GenomicSuperSignature可以在普通筆記本電腦上,在幾秒鐘內就可以獲得新表達譜的注釋信息。

圖1 :GenomicsuperSignature的模型構建過程,完成聚類后,通過醫學主題詞注釋(meSH)和基因集富集分析(GSEA)增強 RAVs 的可解釋性。b)加入新表達譜,使用RAVs得到表達譜熱圖,功能注釋詞云圖,對應文獻的元數據以及和公開數據后的聚類圖。
具體來說,模型構建階段GenomicsuperSignature將來自多個公開數據集的轉錄組數據進行降維,先得出 10,720 個主成分,之后將這些主成分組合成 4764 個可復制變異軸RAVs,其中1378個包含單一的主成分。之后將新數據對應到可復制變異軸上,從而獲得新數據的簽名。根據定義,單元主成分不是一個“可重復”信號,過濾后只剩下3386個 RAVs。故此,我們將來自44,890個樣本的信息壓縮成3386個 RAV,這個數字小于最初樣本數量的1/10。考慮到RAVs計算過程中,使用了所有樣本的前90% 變異基因,即只使用了13,934個常見基因。因此,GenomicsuperSignature達到了有效的數據壓縮比,使用訓練數據的初始容量的約3% 中的RAV,即可保持重要的信息。
為了證明GenomicsuperSignature匹配數據集與相關已發表數據集的能力,我們將 RAVs 模型應用于五個 TCGA 數據集。根據這些數據集主成分與其生物學意義的相關性,我們確定了乳腺浸潤癌(RAV221和 RAV868)和結腸和直腸腺癌(RAV832)特異性 RAV。當將 RAV模型應用于乳腺浸潤癌(TCGA-BRCA)數據集時,RAV221得到了最高的驗證得分(圖2b),驗證數據和已有數據中BRAC一列的皮爾森相關性也最高(圖2a),經過注釋后得到的詞云圖中(圖2c)中,大部分關鍵詞也與乳腺癌有關。

圖2 驗證數據集:TCCA數據集中BRCA數據作為驗證數據,通過得到的最相近RAV,以及對應的注釋詞云,相關文獻及富集通路
GenomicsuperSignature通過對新數據降維,還可以發現樣本間的亞型,將3567個結直腸癌(CRC)(這些樣本可分為四類CMS腫瘤亞型)作為輸入,可以發現在RAV834和RAV833上的降維(圖3a),可以清晰地將四種亞型區分開。
之前的研究,使用1,867個樣本微陣列的PC 聚類亞型評分(PCSS)的連續評分系統,并發現PCSS發現的主成分與微衛星不穩定性(MSI),腫瘤分級,分期和腫瘤位置相關性更密切。對比PCSS的評分和RAV評分與對應臨床病理變量的關聯,在所有四種表型上都比離散的 CMS 表現更好,除了腫瘤部位外,也優于 PCSS 。值得注意的是, GenomicsuperSignature僅僅是從 RNA-seq 數據中訓練出來的。這意味著,從非結直腸癌特異性數據集訓練的 RAV ,在捕獲 結直腸癌相關的生物學相關特征上優于使用結直腸癌特異性數據庫捕捉到的特征,這表明 GenomicsuperSignature的特征提取具有一般性,可以應用于描述其他疾病。

圖3,a)結直腸癌組織的樣本,經過GenomicsuperSignature得到的降維,能夠區分出不同亞型,b)臨床表型在不連續的 CMS 亞型和 RAV834/833分配的樣本分數作為協變量進行回歸。使用似然比檢驗(LRT)將整個模型與僅包含 CMS 亞型,-log10p-value 接近0,這意味著 CMS 沒有提供額外的信息。c)使用 PCSS1/2和 RAV834/833分配的樣本評分作為協變量進行與圖(b)中相同的回歸,并計算似然比
由于實驗技術原因,RNA數據集往往包含缺失的信息或隱藏在噪聲中的信號。通過利用現有的數據庫,GenomicSuperSignature 可以通過揭示新數據集的弱生物屬性或間接測量的生物屬性來填補這些空白。為了評估 GenomicSuperSignature 的遷移學習上的應用,我們比較了兩個不同數據集:8-紅斑性狼瘡全血(SLE-WB)23和多血管炎患者鼻刷樣本的 RAVs 對嗜中性粒細胞計數的估計。結果發現RAV1551注釋對應的通路關鍵詞包含噬中性粒有關,而該RAV上的嗜中性粒細胞計數有關(圖a)。考慮到嗜中性粒細胞是終末分化的細胞類型,在活性基因表達譜中可能檢測不到,因此我們使用 MCPCounter估計嗜中性粒細胞的值,這樣得出兩者的相關性更高(圖b)。圖c中,將從多血管炎(GPA)患者的肉芽腫病中獲得的鼻刷樣本得到的基因表達譜,通過GenomicSuperSignature降維后,發現RAV1551上的位置任然與嗜中性粒細胞的個數有關,這表明 RAV 可以作為一種新的方法來比較不同的數據集,并對潛在的生物信號提供解釋。

圖3,使用紅斑性狼瘡全血和多血管炎患者鼻刷樣本,說明經過降維后得到的RAV1551與嗜中性粒細胞計數呈正相關。
從使用來看,預先構建的模型大大減少了用戶的計算需求: GenomicSuperSignature模型在24個內存為128Gb 的核上訓練需要幾天時間,而使用它進行注釋程序可以在傳統的筆記本電腦上幾秒鐘內完成,GenomicSuperSignature作為 R/Bioiconductor 軟件包和 Galaxy 工具,允許隨時將其納入廣泛使用的 RNA-seq 分析流程,并使大型研究團體能夠重用公共數據,以便對新數據進行更準確的分析。
總結來看,GenomicSuperSignature包含從大量現有轉錄組中學到的信息,這些信息可以“遷移”到新的表達譜數據中 。GenomicSuperSignature得到的RAV由多個已發布數據集的獨立分析中重復觀察到的主成分組成,與之前的數據整合方法相比,該策略可識別小型訓練數據集的潛在變量,并忽略在多個數據集中,由未觀察到的技術因素導致的偏差。結合發表引文、 MeSH 術語和基因集,得到的注釋包含從大量現有研究中學到的信息。GenomicSuperSignature可對表達譜進行功能和富集通路注釋,并能放映生物學功能,例如對應不同的亞型及連續表型。