今天給大家分享一篇發表在Nature Communications(IF: 17.694)上的文章:
DNA methylation-based epigenetic signatures predict somatic genomic alterations in gliomas
基于 DNA 甲基化的表觀遺傳特征預測神經膠質瘤的體細胞基因組改變
一.研究背景
表觀遺傳學在癌癥中起著至關重要的作用,并通過DNA甲基化、組蛋白變異和非編碼RNA表現出廣泛的重編程。DNA甲基化是一種穩定的特征,反映了腫瘤間和腫瘤內的異質性,并且已用于分類不同類型的腫瘤。例如,最近發表的基于DNA甲基化的中樞神經系統(CNS)腫瘤組織病理學分類(無監督CNS分類)挑戰了傳統的組織學分類和腫瘤分級。這種無監督的CNS分類使用無監督學習方法來識別具有不同DNA甲基化譜的CNS腫瘤類別。浸潤性膠質瘤,包括世界衛生組織II-IV級膠質瘤,是最常見和致命的原發性腦腫瘤。先前的研究已經確定了膠質瘤的一些關鍵分子特征,這些特征在膠質瘤的發生、發展、診斷和治療中起著關鍵作用。例如,異檸檬酸脫氫酶(IDH)突變與年輕和更長的生存時間正相關。染色體1p/19q聯合缺失對提高生存率和預測化療反應有預測作用。IDH突變和染色體1p/19q聯合缺失是世界衛生組織當前膠質瘤診斷標準的一部分。TERTp突變和ATRX突變是膠質瘤中相互排斥的改變,兩者在功能上與端粒長度維持相關。端粒酶抑制療法、異染色質沉默機制靶向療法和G4失穩療法是具有ATRX或TERTp突變的膠質瘤的有希望的治療靶點。O6-甲基鳥嘌呤DNA甲基轉移酶(MGMT)啟動子甲基化狀態是預后和烷基化化療預測生物標志物。可以使用已建立的基于甲基化陣列的算法MGMT-STP2713進行預測。在轉錄水平上,膠質母細胞瘤(GBM)已根據分為CL、PN和MES的特征基因表達特征分為三個亞型。CL-GBMs以表皮生長因子受體(EGFR)擴增為特征,而MES-GBMs富集神經纖維蛋白1(NF1)缺失和突變。
上述所有體細胞突變對診斷、治療決策和患者預后至關重要。然而,通常需要單獨的測序分析來獲得這些體細胞改變。體細胞突變的檢測,如IDH、ATRX和TERTp狀態,通常依賴于NGS。熒光原位雜交(FISH)或雜合性缺失(LOH)分析通常用于獲得染色體1p/19q狀態。甲基化特異性PCR(MS-PCR)或焦磷酸測序分析通常用于獲得MGMT啟動子狀態。目前還沒有臨床試驗根據基因表達對腫瘤進行分類。這是因為膠質瘤切除術后最常用的分析物是FFPE組織。FFPE組織中的RNA經過高度降解和化學修飾,因此,其轉錄測序質量較低,可能會受到人為因素和技術差異的影響。總之,這些單獨檢測的成本、時間和組織要求經常導致延遲或不完整的分子診斷,導致治療不理想和不合格的臨床試驗。事實上,迫切需要開發一種快速、經濟有效的檢測方法,為浸潤性膠質瘤患者提供最少量的FFPE組織。
二.研究方法
研究者旨在開發一種基于DNA甲基化的分類器,準確確定浸潤性膠質瘤的IDH、TERTp和ATRX突變狀態、染色體1p/19q編碼狀態和基因表達亞型。根據其狀態,上述分子特征可分為兩類:二元類,包括IDH、TERTp和ATRX突變或野生型、染色體1p19q缺失編碼或完整以及基因表達亞型,包括CL、PN或MES。使用嚴格的機器學習方法,開發了用于預測每個二元類(IDH、TERTp等)和預測基因表達亞型的單獨分類器。二元基因組改變分類器在TCGA的低級別和高級別膠質瘤樣本中進行了訓練和驗證,而基因表達亞型分類器僅在TCGA膠質母細胞瘤樣本中訓練,因為這些亞型最初是使用高級膠質瘤數據集描述的。所有分類器的性能均通過多中心III期隨機試驗的獨立隊列(NOA-04)進行驗證,該試驗包括低級別和高級別膠質瘤。
三.研究結果
1、預測模型
對于二元遺傳變異,所有預測模型都達到了較高的預測精度,如圖1A所示。在測試集中,模型對IDH、TERTp和ATRX突變以及染色體1p/19q編碼狀態的預測準確率分別為100%、98.31%、90.48%和99.21%,AUC分別為1.0、1.0、0.9952和0.9974。對于基因表達亞型預測,按照方法中所述處理具有HM450K和HM27K數據的GBM樣本。最終的隨機森林模型用訓練集(n=212)和驗證集(n=72)重新調整,在測試集中達到72.2%(52/72)的預測精度。
2. 預測特征分析
對于二元遺傳變異,研究者對所有可用樣本進行聚類分析(圖1B)。樣本被分為兩個亞組,與已知的基因組改變高度一致。通過比較IDH、TERTp、ATRX和染色體1p/19q 聯合缺失的特征探針與膠質母細胞瘤CpG島甲基化表型(G-CIMP)特征,研究者發現這五種探針特征之間沒有明顯重疊(圖1C)。ATRX和TERTp突變特征之間缺乏重疊,這與端粒維持中ATRX與TERTp的互斥性質一致。

3. 預測結果與分析
根據DNA-seq based的ATRX狀態、methyl-based的ATRX狀態和單核苷酸變異(SNV)信息形成了五個樣本子集(集合1-5)(圖2A)。25個樣本根據DNA-seq分類為野生型,但根據methyl-based的模型分類為突變型。在這25個樣本中,17個樣本(集合2)顯示了至少一個突變,8個樣本(集合3)根據SNV沒有突變(圖2B)。對于集合4, 具有TERTp突變狀態,3/8樣本為TERTp 突變和ATRX野生型。所有被methyl-based的模型誤分類為ATRX突變體的樣品都含有IDH突變,而所有被methyl-based的模型誤分類為野生型的樣品都是IDH野生型(圖2B)。有趣的是,當甲基化結果不一致時,即使測序結果一致,也觀察到表達存在顯著差異(圖2C-D)。位于ATRX上的探針的DNA甲基化水平在三個亞組(set2、set3和set4)之間沒有顯示出顯著差異,只有一個探針除外。對于染色體1p/19q編碼狀態預測,當比較methyl-based的狀態和SNP6-based的狀態時,五個樣本被錯誤分類(圖2E)。使用HM450K甲基化數據計算的chr1和chr19的CNV譜(圖2F)。通過甲基化模型,五分之四的樣本被誤分類為聯合缺失,一個樣本被誤歸類為非聯合缺失。可以清楚地觀察到TCGA-CS-5394和TCGA-FG-7637中的缺失,這與methyl-based的模型預測相匹配。對于基因表達亞型預測,測試集中的樣本(n=72)按methyl-based和transc-based的基因表達亞類型進行分類(圖3A)。與具有一致亞型的樣本相比,兩種方法之間的不一致樣本在拷貝數變異和基因表達水平上顯示出顯著差異。研究者檢查了不一致樣本中特定亞型的變化,以確定哪種分類方法與這些特征變化的相關性最高(圖3B-C)。

4. 模型驗證
NOA-04隊列中每個二元基因組改變的預測準確率為:對于IDH突變,通過PCR-seq的89.9%(98/109)和通過HM450k DNA甲基化譜的無監督聚類分析的99.10%(114/115);對于TERTp突變,通過PCR-seq分析,82.8%(82/99)免疫組織化學(IHC)檢測ATRX突變率為92.7%(89/96);而對于染色體1p/19q狀態,MLPA為88.89%(88/99),基于HM450K產生CNV分布為95.65%(110/115)(圖3D)。根據IDH突變狀態,11個樣本通過methyl-based的預測被錯誤分類:9/11通過PCR-seq預測為野生型,但通過methyl-based模型預測為突變型。在TCGA-LGG樣品中,通過methyl-based和transc-based的算法預測的基因表達亞型在PN亞型的分類結果中顯示出很大差異(圖3E):422/486(86.8%)個樣本通過基于甲基的亞型被分類為PN,而只有228/48(46.9%)通過transc-based亞型被歸類為PN。圖3F中的熱圖將methyl-based的亞型和transc-based的亞型與膠質瘤的其他關鍵特征對齊,包括組織學、染色體1p/19q編碼狀態、MGMT啟動子甲基化狀態以及關鍵基因的突變和CNV狀態。很明顯,幾乎所有的IDH1/IDH2突變和大多數TP53和ATRX突變與methyl-based的PN亞型匹配。在PN亞型中幾乎沒有觀察到EGFR擴增。這些觀察結果遵循PN亞型的已知特征,并支持methyl-based的分類。

5. UniD與無監督CNS分類比較
根據UniD預測的分子特征狀態,將膠質瘤(n=644)分為九組。總結了這些組及其基于無監督CNS分類的分類。在圖4A中。大多數膠質瘤分為五組(Grp1、2、3、7和8)。Grp8中的膠質瘤在ATRX和TERTp中均顯示野生型狀態,這表明可能存在替代機制來維持其端粒長度。圖4B中描述了兩個分類系統之間的不一致樣本。第一行:40/644例膠質瘤被分類為對照類(正常樣本),根據無監督CNS分類為正常腦組織,其余病例被分類為“腫瘤”類(腫瘤樣本)。通過比較分類的正常和分類的腫瘤樣品之間的絕對腫瘤純度(圖4C),許多分類的正常樣本顯示出高腫瘤純度,48個分類的正常樣本顯示出高的腫瘤純度和分類的正常標本的中位腫瘤純度。第二行:第1至4亞組中的所有CONNTR和HEMI均被預計為IDH野生型,而通過DNA測序檢測到了所有的IDH突變。第三行:Grp2中的12個樣本被分類為正常腦正常組織或IDH野生型膠質瘤,無染色體1p/19q聯合缺失,而SNP6的CNV圖譜顯示清晰的染色體1p/19q聯合缺失(圖4D)。第四行:SFT、HMPC樣本預計具有整倍體基因組,而Grp7中的TCGA-19-5951顯示出顯著的chr10缺失以及chr19p和chr20擴增(圖4E)。第五行,根據無監督的CNS分類,Grp8被預測為IDH突變體,但實際上通過測序為野生型。第六行:來自成年患者的兩個樣本(TCGA-06-5858和TCGA-2006-6698)被無監督CNS分類為IHG。在主要的五組(Grp 1、2、3、7、8)中,任何兩組之間的Kaplan-Meier分析如圖4F、G所示。Grp1、Grp2和Grp3之間未觀察到顯著差異。這表明所有IDH突變腫瘤患者無論其腫瘤的ATRX、TERTp、ATRX或ATRX水平如何,與IDH突變型膠質瘤相比,染色體1p/19q狀態和IDH野生型膠質瘤(Grp7和Grp8)的生存率顯著降低。此外,與Grp8相比,Grp7表現出較差的存活率,Grp8的樣本含有TERTp突變,這表明在缺乏IDH或者ATRX突變時,TERTp突變具有負面的預后意義。

四、總結
分子分類改善了惡性膠質瘤患者的診斷和治療。然而,分類依賴于成本高且速度慢的單獨檢測,導致治療經常延遲。在這里,研究者建議使用DNA甲基化作為一個新興的臨床診斷平臺,根據主要基因組改變對膠質瘤進行分類,并提供對亞型特征的洞察。研究表明,使用機器學習模型,DNA甲基化特征可以準確預測體細胞的改變,并比現有分類器有改進。研究者開發的UniD對于早期臨床階段的基因組改變和基因表達亞型診斷來說是快速且經濟的,并且比目前臨床使用的單個檢測方法有所改進。遺傳改變和表觀遺傳特征之間的顯著關系表明該方法廣泛適用于其他惡性腫瘤。