近年來孟德爾隨機化(Mendelian Randomization, MR)逐漸作為因果推斷的有效方法流行了起來。如圖所示,MR通過引入一個叫做工具變量(Instrumental variables,IVs)的中間變量,來去除混雜因素的干擾,分析工具變量與結局變量之間的關系,工具變量往往是遺傳變異。今天就跟著小編一起來看看一篇 2022年10月發表在Frontiers in Nutrition(IF:6.590)上的文章如何使用孟德爾隨機化分析,讓我們一起解開孟德爾隨機化分析研究套路。

研究背景
茶是世界上消費最廣泛的飲料之一。茶被認為對健康有多種益處。例如,一些研究表明,茶具有抗癌作用。然而,在流行病學研究中,關于飲茶是否有益于人群健康,特別是對癌癥預防有沒有作用,還沒有達成明確的共識。
孟德爾隨機化設計采用遺傳變異作為暴露的工具變量(IVs),可以增強因果推斷,最小化殘留混雜。因為遺傳變異在受孕時是隨機分配的,MR受反向因果關系的影響較小,因此一個性狀通常與其他性狀(也就是潛在的混雜因素或環境因素)無關。因此,作者進行了一項MR研究,以評估茶攝入量與乳腺癌風險的關系。
圖2 實驗整體設計
結果
工具變量的篩選
作者對UK biobank(UKB)中SNP數據進行了全基因組關聯研究(GWAS)分析,確定與飲茶相關的單核苷酸多態性(SNPs)。并使用GWAS根據年齡、性別和前20個主成分對結果進行了調整,排除了其他混雜表型的干擾。作者選擇了P<5×10?8的常染色體雙等位SNPs,并進一步以小頻率>1%進行質量控制。這里之所以使用P<5×10?8而不是使用0.05是對P值進行了調整。因為UKB中的樣本量很大,往往是幾十萬計,因此P值往往調整為0.05×10?6也就是5×10?8。這些初篩出的SNP之間可能會有連鎖不平衡現象,當兩個位點的不同等位基因的關聯頻率高于或低于獨立隨機關聯的條件下的期望頻率,這種情況是客觀存在的,此時這些工具變量之間相關性就叫連鎖不平衡,也就是說這兩個等位基因之間是存在關聯的。作者使用1000 Genomes Project中的歐洲樣本作為參考數據,選取了連鎖不平衡r2 < 0.01的SNPs,避免SNPs之間關聯混雜。他們還使用F-statistics(Fixation indices)檢驗弱IVs偏倚,F-statistics> 10提示為強遺傳IV,從而刪除了F-statistics小于10的SNPs,確保IV與茶攝入量強相關。最后,在作者選擇了45個與茶葉攝入量密切相關的獨立SNPs作為工具變量(IVs)來進行后續分析。
2. Steiger分析結果
孟德爾隨機化分析假定工具變量先影響暴露,然后通過暴露影響結局,但這個假定的方向性需要驗證, Steiger分析可以分別計算IV對暴露和結局的variance explain,如果結局的variance explain小于暴露,則方向正確。本文作者應用了Steiger分析來判斷飲茶與乳腺癌風險之間潛在因果關系的方向。Steiger-MR發現相較于結果(乳腺癌的發生)SNPs更能解釋暴露(茶攝入)中的差異(所有P > 0.05),這說明本研究選用的IV先影響了茶攝入再影響了乳腺癌發生。
3. Power 分析結果
統計功效(power)指的是在原假設為假的情況下,接受備擇假設的概率。Power越大,犯第二型錯誤的概率越小,就更有把握認為結果是顯著的。作者使用mRnd方法計算統計功效,計算出解釋的表型方差為0.76%,這等于所有有效IV解釋的茶葉消費的總表型方差,這個值并不是很高,其實很多研究是不進行Power 分析的,因為得到的結果往往不太好,但本研究還是進行了。在當前樣本量下,當估計統計功效為80%時,總體乳腺癌、er陽性乳腺癌和er陰性乳腺癌的OR分別為1.14、1.16和1.28,這個OR值雖然大于1,但并不是很高,也不是很讓人滿意。
4. 孟德爾隨機化分析結果
圖三 孟德爾隨機化分析結果的散點圖。(A)整體乳腺癌與飲茶的相關性;(B) ER陽性乳腺癌與飲茶的相關性;(C) ER陰性乳腺癌與飲茶相關性
乳腺癌與飲茶關聯的散點圖如圖3所示,圖上的每一個點代表著一個SNP位點,橫坐標是SNP對暴露(飲茶)的效應,縱坐標是SNP對結局(乳腺癌發病)的效應。作者不僅對總體乳腺癌進行了分析,還對ER陽與ER陰性乳腺癌患者進行了亞組分析,從圖中我們也可以看出飲茶與乳腺癌發生在三組中的關聯性都不強。同時從這張圖上,我們還能看到,當SNP對BMI的飲茶為0,也就是工具變量的效應(橫坐標)為0的時候,結局變量的效應(縱坐標)并不是0,說明了數據內存在水平多效應(簡單理解就是存在混雜因素),也就是說作者選擇的SNP可能不通過飲茶而通過其他表型影響了乳腺癌發病,這需要進行敏感性分析來排除這些導致偏倚的工具變量,后續研究中患者進行了敏感性分析來校正。圖4顯示了飲茶對乳腺癌風險的因果影響的估計。作者通過IVW和MR-Egger方法進行Cochran異質性檢驗,發現飲茶與整體乳腺癌、ER陽性乳腺癌和ER陰性乳腺癌之間存在顯著的異質性。但MR-Egger方法飲茶與總體乳腺癌、ER陽性和ER陰性乳腺癌風險之間均無相關性。總之,使用加權中位數、簡單中位數和MR-Egger回歸方法,作者發現飲茶與ER陽性和ER陰性乳腺癌的發病風險之間沒有關聯。

5敏感性分析結果
因為同一個SNP可能導致多個表型,也就是說,一個SNP除了與飲茶有關,也可能與性別、吸煙等表型有關,這樣就會造成偏倚。作者使用MR-PRESSO排除了潛在的多效SNPs。其中,rs199621380、rs2315024、rs397074(這些均為SNP編號)被排除在乳腺癌整體分析之外;在ER陽性乳腺癌的分析中,rs2315024被排除;rs112476491和rs2315024被排除在ER陰性乳腺癌的分析之外。在這些分析中,作者發現去除異常值前后的估價值沒有差異(作者將MR-PRESSO失真試驗的P值定為>0.05)。在MR-PRESSO異常值校正分析中,ER陽性和ER陰性乳腺癌的OR分別為1.030 (0.984-1.078,P = 0.2158)、1.050 (0.995-1.109,P = 0.0852)和1.025 (0.361-2.907,P = 0.597),也就是說校正了異常值后,飲茶與乳腺癌的患病仍然沒有相關性。結果表明,使用現有的SNPs作為IVs,飲茶與總體(ORIVW = 1.029, 95% CI = 0.983-1.077, P = 0.2086)、ER陽性(ORIVW = 1.050, 95% CI = 0.994-1.109, P = 0.078)和ER陰性乳腺癌風險(ORIVW = 1.081, 95% CI = 0.990-1.103, P = 0.6513)無關。此外,使用加權中位數、簡單中位數和MR-Egger回歸方法,作者發現飲茶與總體、ER陽性、以及ER陰性乳腺癌跟無關,在排除了其他混雜因素干擾后,仍有沒有顯著關系。

討論
本文使用孟德爾隨機化分析結合UKB等數據庫探討了飲茶對于乳腺癌發病的影響,雖然發表雜志影響因子并不是很高,但需要注意的是,文章得到的是一個陰性結果,能夠發在5分以上的雜志說明這篇文章的想法以及嚴謹程度都是很過關的。文章首先利用UKB選取了中間變量,隨后證明這個中間變量滿足孟德爾隨機化分析中的三個假設:1.與暴露因素強相關;2.與混雜因素無關;3.工具變量(IVs)是通過暴露因素而不是其他方法影響結局的,這一點作者通過MR-PRESSO檢驗水平基因多效性進行了證明。總之雖然研究結果不是很讓人滿意,但研究的設計以及方法是嚴謹的,值得大家學習。
參考文獻:Deng Y, Ge W, Xu H, Zhang J. A Mendelian randomization study of the effect of tea intake on breast cancer. Front Nutr. 2022 Oct 18;9:956969. doi: 10.3389/fnut.2022.956969. PMID: 36330145; PMCID: PMC9623097.