全基因組范圍內的基因-基因互作研究
今天給大家分享一篇2022年4月30日發表在國際肺癌研究協會(IASLC)官方期刊Journal of Thoracic Oncology (IF=20.121) 雜志上的文章。這篇文章進行了歐洲人肺癌易感性的大規模全基因組基因-基因相互作用研究,并在亞洲人中進行跨種族驗證。

一 研究背景
肺癌是我國及全球惡性腫瘤的主要死因。除環境暴露(如吸煙)外,單核苷酸多態性(SNP)亦是公認的影響肺癌易感性的重要遺傳因素之一。近20年來,盡管全基因組關聯研究(GWAS)已經取得重要進展,但是所鑒定的SNP仍然對肺癌遺傳度(heritability)的解釋力有限。肺癌屬于復雜疾病。復雜疾病的發生、發展受到復雜關聯模式的驅動,如基因-環境、基因-基因交互作用等。盡管已經進行了全基因組關聯研究來研究肺部腫瘤發生的遺傳變異,但對可能影響非小細胞肺癌(NSCLC)風險的基因-基因(G x G)的相互作用知之甚少。
本研究中(圖1),作者利用來自國際肺癌聯盟OncoArray項目、肺癌跨學科研究和英國生物庫的445,221名歐洲裔參與者,對歐洲NSCLC的風險進行了大規模的全基因組的G x G相互作用研究。首先,使用BiForce對340,958個單核苷酸多態性(SNPs)中超過580億個G x G互作。然后,通過演示圖形調整的邏輯回歸模型進一步測試頂級相互作用。最后,利用所選的相互作用建立了NSCLC的肺癌篩查模型,分別針對從未吸煙者和曾經吸煙者。經Bonferroni校正,作者確定了8對具有統計學意義的SNPs,它們主要出現在6p21.32和5p15.33區域(例如,rs521828 C6orf10和rs204999 PRRT1;rs3135369 BTNL2和rs2858859 HLA-DQA1;rs2858859 HLA-DQA1和rs9275572 HLA-DQA2;rs2853668 TERT和rs62329694 CLPTM1L ). 值得注意的是,即使各民族之間存在很多遺傳異質性,在6p21.32區域的三對SNPs也是如此。重要的G x G互作在5p15.33和6p21.32區域被發現并富集,這可能增強肺癌篩查模型。

二 主要結果
歐洲兩階段研究發現的兩種顯著的G x G相互作用
表1列出了ILCCO-OncoArray(15157例和13196例對照)、TRICL(3288例和3965例對照)和UK Biobank(3017例和406598例對照)的NSCLC病例和對照的特征。在發現階段,作者觀察到兩對SNPs(rs521828,位于6p21.32的C6orf10的內含子,和rs204999,位于6p21.32的PRRT1的6.2 kb 3’;rs2853668,位于5p15.33的TERT的4.8 kb 和rs62329694,位于5p15.33的CLPTM1L的內含子)。在驗證階段,作者通過使用來自英國生物庫的獨立參與者證實了這兩個G x G信號的顯著性(rs521828 and rs204999: OR interaction= 1.09, 95% CI:1.00–1.18, p=0.044; rs2853668 and rs62329694: OR interaction = 0.83, 95% CI: 0.69–0.98, p =0.034)。

為了更好地了解rs521828和rs204999之間的相互作用,作者還使用所有三個隊列聯合評估了rs204999分層的NSCLC風險與rs521828的相關性。rs521828等位基因與攜帶rs204999野生基因型(OR 0.86, 95% CI: 0.80 0.92);在攜帶AG雜合基因型rs204999的人群中,這種效應被逆轉(OR 1.09, 95% CI: 1.01 1.17),且GG基因型為rs204999的基因型對其影響更大(OR 1.23, 95% CI: 1.06 1.43)。由此可見,rs204999修飾了rss521828對NSCLC的作用,說明兩者之間存在相互作用。通過一系列分層分析進一步研究了這種模式(圖2A)。在rs2853668和rs62329694之間也觀察到了類似的模式。G等位基因rs2853668與較高的攜帶rs62329694基因GG型的NSCLC受試者幾率相關(OR 1.30, 95% CI: 1.14 1.49)。但在攜帶rs2853668基因型GA和AA的受試者中,這種效應被逆轉(OR 0.87, 95% CI: 0.78 0.99) (OR 0.75, 95% CI: 0.59 0.99)。敏感度分析證實了該模式(圖2B)。針對ILCCO數據,研究人員進一步對6p21.32和5p15.33區域進行填補分析。如圖2C和2D所示,兩個區域存在成簇基因-基因交互作用信號。利用logistic回歸模型進一步檢驗了顯著上位性對約500 KB側翼區域內的所有SNP,發現了G x G信號在接近識別對的地方富集(圖2C和D)

在歐洲人中通過meta分析確定的六種更重要的G x G交互作用
研究人員在本次歐美人群交互作用研究中鑒定出8對信號,在既往亞洲人群(NJMU-GSA)中鑒定出1對信號(2p32.2區域)。跨種族驗證分析顯示:肺癌基因-基因交互作用在不同種族間既有共同性,又有異質性。 從不同亞群的meta分析中得出Pinteraction小于5×10-8的 G × G信號。在不同亞群中,共有8對SNPs達到Bonferroni校正的閾值(p < 8.60 × 10-13)(表2)。其中,有兩對SNPs與兩階段研究發現的SNPs相同。此外,在新檢測到的6個G×G相互作用中,有4對出現在6p21.32區域,包括rs3135369和rs9271300、rs3135369和rs2858859、rs2858859和rs9275572、rs2858859和rs9275596。由于rs9271300和rs2858859(r2=0.66,D'=0.996)以及rs9275596和rs9275572(r2=0.72,D'=0.998)之間存在中等程度的連鎖不平衡(LD),這四個G × G信號可能是以下三個SNP的結果:rs3135369、rs2858859和rs9275572。6p21.32區域的所有其他SNPs都是相對獨立的,不管是LD-r2還是D'統計數字。其他兩對SNPs居住在不同的區域,包括8p23.3的rs28591443和6p25.2的rs9265981,1q32.2的rs589027,以及2p24.2的rs713395。

靈敏度分析
作者進一步進行了敏感性分析來評估這八個G × G的相互作用。(1) 通過在邏輯回歸模型中不包括任何其他協變量來評估這8個G × G信號的未經調整的影響,發現所有G × G相互作用在不同的亞群中仍然達到p小于5×10-7的顯著性水平。(2) 為了說明英國生物庫人群中病例和對照不平衡引起的I型錯誤膨脹,作者在驗證階段應用SAIGE(0.44.6.5版)重新確認這8個信號。SAIGE使用鞍點近似法來考慮病例-對照的不平衡,可以有效地分析大樣本數據,控制病例-對照的不平衡和樣本的相關性。除了一對(rs521828和rs204999)稍有意義(p=0.056)外,所有的G × G相互作用都保持名義上的意義。這些通過敏感性分析的結果表明,八個G × G相互作用的穩健性令人滿意。
在亞洲和歐洲人間成功的跨種族驗證顯著的G x G相互作用
首先,作者通過使用來自NJMU-GSA的外部亞洲人群,評估了從歐洲血統人群中發現的8個G × G相互作用。能夠在6p21.32區域的幾個亞種群中驗證三對SNPs。它們包括NSCLC中的rs521828和rs204999,NSCLC中的rs3135369和rs9271300和吸煙者,以及NSCLC中的rs3135369和rs2858859。其他配對沒有明顯的結果,可能是由于這兩個民族人群之間SNP的效應等位基因頻率不同(圖3)。

具有G x G相互作用的SNP可能參與生物調控功能
在RegulomeDB數據庫中,觀察到13個SNP中的10個具有豐富的生物調節功能,包括eQTL、轉錄因子結合位點或DNase峰。觀察到SNPs有許多增強子組蛋白標記和圖案的變化。在使用肺組織的GTEx數據庫進行的eQTL分析中,6p21.32和6p25.2的所有8個SNPs都發現了人類白細胞抗原(HLA)區域的豐富調控關系,而其他的則沒有發現明顯的eQTLs。此外,作者用GEO資料庫進行了差異表達分析。對于兩期研究中發現的三個基因(C6orf10、CLPTM1L和TERT),其表達水平在腫瘤組織中明顯上調。此外,Meta分析中發現的BTNL2也在肺癌腫瘤和正常組織中存在明顯的差異表達。通過LUAD-和LUSC-TCGA數據庫對這10個基因在腫瘤組織中的腫瘤突變負擔分析,在下一代測序的體細胞突變的基礎上,作者發現有三個基因,特別是TERT、CLPTM1L和CSMD1,在腫瘤細胞中呈現高比例的體細胞突變。這些發現可能會給肺癌的新型靶向治療帶來啟發。
G x G交互評分在英國生物樣本庫中有效地區分高危人群
作者在從不吸煙者和曾經吸煙者中建立了肺癌篩查模型,因為他們的遺傳背景有很大的不同。對于每個亞組來說,考慮進行風險篩查的是以下內容。(1) PRS包括128個SNPs,這些SNPs對歐洲人的GWAS有明顯的邊際效應;(2) G × G相互作用的得分(表2),通過對三個數據集的Meta分析,其中P小于0.05;(3) groupLASSO使用ILCO-OncoArray(訓練集)選擇的G×G相互作用的得分。iPRS(interaction-empowered polygenetic risk score)具有顯著的分層性能,同時作者通過ILCCO-OncoArray中的得分的十分位數將受試者分為10組。
iPRS在162,316名從未吸煙的人和245,998名曾經吸煙的人中進行了外部驗證,這些人有來自英國生物庫的肺癌隨訪時間。隨訪時間的中位數為9.45年,其四分位數范圍為8.48至10.52年。每個受試者都有一個iPRS分數,所有受試者按分數的十分位數被分為10個組。高風險組(前10%)的受試者患肺癌的風險明顯高于低風險組(后10%)的受試者,從未吸煙者的危險比(HR)相當于5.31(95% CI: 3.11-9.07, p = 8.60 × 10-10, 圖4A),曾經吸煙者的HR相當于6.21(95% CI: 5.01-7.70, p < 2.2 × 10-16, 圖4B)。與PRS相比[前10%與后10%相比。從不吸煙者的HR=1.72(95%CI:1.09-2.72);曾經吸煙者的HR=1.80(95%CI:1.49-2.15)],發現iPRS有更好的分辨能力。同時,作者驗證了由人口統計學變量(年齡、性別和吸煙包年數)和iPRS組成的肺癌篩查模型,其中SNP的權重被保留在訓練集中。累積肺癌風險曲線在按總風險分數的五分位數分類的五個組別之間有明顯的區別(P<0.001),表明iPRS增強模型是一個良好的風險分類器(圖4C和D)。
年齡和吸煙包年是兩個公認的因素,用于定義肺癌低劑量計算機斷層掃描(LDCT)篩查的高風險人群。因此,作者說明了按iPRS、年齡和吸煙包年分類的各種亞人群的肺癌絕對發病率(圖4E)。在臨床上,iPRS增強模型可能會改變肺癌篩查的做法。例如,年齡小于55歲或吸煙少于30包年的受試者(包括從不吸煙者),但iPRS較高,可建議作為肺癌篩查的高危人群;對于iPRS較高(前20%)且吸煙超過60包年的人,肺癌篩查最好從50歲開始;而對于iPRS較低的人,可推遲篩查(圖4E)。表明iPRS能提高經典肺癌風險模型的篩查能力。

基因變異在生物通路中顯著富集
為了從生物學上理解篩選模型中映射到外顯SNP的基因,作者用KEGG數據庫分別對曾經和從未吸煙者進行了基因富集途徑分析。在從未吸煙的人中,總共有16條途徑是顯著的,如細胞粘附分子和異體移植排斥。對于曾經吸煙的人來說,有22條路徑被確定,包括眾所周知的路徑,如TH1和TH2細胞分化、Notch信號通路和利什曼病,表明更多的生物路徑參與到吸煙行為導致的腫瘤發生中。
三 總結
本次研究完成了全球最大規模(46.5萬人)的肺癌基因-基因交互作用研究與跨種族人群驗證,并構建了交互作用賦能的遺傳評分(interaction empowered polygenetic risk score, iPRS)。不僅是全球規模最大的肺癌基因-基因交互作用研究,也是首個歐美人群全基因組基因-基因交互作用研究和跨種族驗證研究,具有重要意義。
參考文獻
Zhang, R., et al., A Large-Scale Genome-Wide Gene-Gene Interaction Study of Lung Cancer Susceptibility in Europeans With a Trans-Ethnic Validation in Asians. J Thorac Oncol, 2022.