今天給大家分享的是2022年2月份發表在Briefings in Bioinformatics(IF=13.994)一篇文章,文章主要講解了一種能夠精準識別特異性亞細胞群的計算方法。
LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data
LRcell:從RNA-seq數據中在亞細胞水平上檢測差異表達來源
1.摘要:
鑒于大多數組織由豐富多樣的(亞)細胞類型組成,RNA-seq分析中一個重要但尚未解決的問題是確定差異表達發生在哪些(亞)細胞類型上。單細胞RNA測序(scRNA-seq)技術可以回答這個問題,但它們通常是費力費錢。在這里,作者介紹了LRcell,這是一種旨在識別在RNA-seq實驗中觀察到變化的特定(亞)細胞類型的計算方法。此外,LRcell提供了從scRNA-seq實驗計算的預嵌入標記基因作為執行分析的選項。作者進行了一項模擬研究,以證明LRcell的有效性和可靠性。使用三個不同的真實數據集,作者表明LRcell成功識別出與精神疾病有關的已知細胞類型。將LRcell應用于RNA-seq結果可以產生一種關于哪些(亞)細胞類型有助于差異表達的假設。LRcell是對細胞類型反卷積方法的補充。
2.研究背景
在實驗條件之間尋找差異表達基因(differentially expressed genes,DEG)是了解表型變異分子基礎的有力方法。然而,大多數組織由數十甚至數百種不同的(亞)細胞類型組成,而DEG可能只出現在這些(亞)細胞類型的一小部分中,這與實驗條件有關。RNA-seq數據無法揭示驅動DEG的(亞)細胞類型。單細胞技術的快速發展和普及導致來自不同組織類型的單細胞轉錄組學數據(scRNA-seq)的大量積累。這些數據揭示了不同細胞類型之間轉錄調控的巨大差異,并為重要生物過程的修飾提供了前所未有的近距離視角,特別是對于疾病病理學,包括哪些細胞類型驅動DEG。例如,在最近對阿爾茨海默病(Alzheimer’s disease,AD)的單細胞分析中,Mathys等人確定了響應AD病理學的神經膠質-神經元相互作用。在另一項單細胞研究中,Ruzicka等人發現神經元是精神分裂癥受影響最大的細胞類型。
在過去的10年中,許多計算細胞類型去卷積方法已經被開發出來,它們能從轉錄組數據中推斷不同(亞)細胞類型的比例,還進行了基準研究以比較它們的性能。在這項研究中,作者提出了一種名為LRcell的新型計算工具。鑒于RNA-seq差異表達(differential expression,DE)的研究結果,LRcell的目標是描繪組織的哪些(亞)細胞類型在兩種實驗條件之間發生了重大變化。LRcell是在假設兩種實驗條件之間的一種或幾種亞細胞類型發生的表達變化是在大塊組織水平觀察到的DEG主要貢獻者假設下開發的。細胞類型反卷積方法并非旨在推斷此類變化。利用從公開數據中獲得的scRNA-seq中鑒定的細胞類型特異性標記基因,LRcell通過查找組織中所有(亞)細胞類型的標記基因富集程度來實現目標(圖1)。因此,scRNA-seq實驗不需要匹配RNA-seq實驗條件。當將LRcell應用于各種RNA-seq差異表達時,作者成功地識別出與精神疾病發病機制有關的已知(亞)細胞類型,并產生可測試的新假設,這些假設有可能產生新的生物學見解。

圖1 LRcell工作流程。LRcell從對照病例的特定組織RNA-seq實驗中提取結果作為輸入。為了便于說明,假設組織中有三種(亞)細胞類型,LRcell可以考慮從這三種(亞)細胞類型的scRNA-seq實驗中獲得標記基因。將標記基因映射到整個基因列表中,按照DE p值排序。接下來,對于每種組織類型,應用回歸分析。當以標記基因的二元指標作為響應變量時,作者進行logistic回歸(LR);當使用Marques等人的方法產生的標記基因富集分數作為響應變量時,作者進行線性回歸(LiR)。在這兩種情況下,解釋變量是-log轉化后的DE p值。接下來,計算回歸分析的顯著性,并將其轉換為-log變換FDR并繪制曲線。在本例中,LRcell結果顯示A型細胞最顯著,說明A型細胞在對照病例實驗中發揮重要作用。
3.結果和討論
在這項工作中,作者從多個已發布的scRNA-seq數據集中收集并整理了一系列標記基因。然后,對多個RNA-seq DE實驗進行LRcell分析,以證明其實用性。
3.1標記基因收集和來源
在一種(亞)細胞類型與其天然狀態下的其他細胞類型之間表現出顯著差異的基因被視為標記基因。與基因集富集分析(Gene Set Enrichment Analysis,GSEA)的基因集類似,LRcell需要一份高質量細胞類型標記基因的綱要。目前,LRcell軟件包為用戶提供了來自人類血液、人類大腦和小鼠大腦的多個標記基因集(圖2A),這些標記基因集是使用Marques等人研究中介紹的方法從scRNA-seq數據集計算而來的。此外,LRcell軟件包提供由分子特征數據庫(Molecular Signatures Database,MSigDB)收集的具有特定標準的外部細胞標記。外部標記均來自人類物種,包括中腦、臍帶血、卵巢和骨骼肌。作者將所有細胞類型特異性標記基因集存儲到另一個名為LRcell Type Markers的R Bioconductor Experiment Hub包中。

圖2 LRcell數據集和標記基因在大腦不同區域重疊。(A)標記基因已預先嵌入LRcell的所有組織類型的總結。(B)來自小鼠全腦scRNA-seq數據集的熱圖說明了FC區域內細胞類型之間標記基因的重疊。以小膠質細胞為例說明這三種(亞)細胞類型之間的相似性。(C)顯示FC細胞類型和小腦CB細胞類型之間標記基因重疊的熱圖。(D)顯示FC細胞類型和海馬細胞類型之間標記基因重疊的熱圖。
3.2選定標記基因的特性
由于Marques等人提出的方法不考慮DEG倍數變化,因此探索所選標記基因所表現出的倍數變化是有意義的。計算了它們所代表的(亞)細胞類型中每個標記基因相對于其他細胞類型的倍數變化,并繪制了每種(亞)細胞類型的log10轉換倍數變化。作者觀察到絕大多數這些標記基因顯示出對某些神經元(亞)細胞類型的預期顯著變化。
3.3模擬設置
由于DEG和細胞類型比例變化的基本事實難以監測和跟蹤,作者進行了模擬研究以證明LRcell的有效性。在這項模擬研究中,作者考慮了患者和對照之間的實驗,涉及DEG和比例變化。作者模擬單細胞和大量RNA-seq數據。這兩種類型的數據都是由scDesign2使用成年小鼠額葉皮層(frontal cortex,FC)scRNA-seq數據集作為參考生成的,作者使用之前從數據集中獲得的標記基因來進行LRcell分析。為簡單起見,作者在模擬研究中考慮了兩種情況:(1)在條件變化期間所有(亞)細胞類型的比例保持不變,并且在一種特定的細胞類型中發現了DEG;(2)病例和對照的(亞)細胞類型比例不同,在任何(亞)細胞類型中均未發現DEG。在每種情況下,作者都嘗試模擬不同的組合。在第一種情況下,作者考慮以下設置:(a)細胞類型比例分布;(b)細胞總數;(c)在該特定(亞)細胞類型中出現的DEG數量;(d)DEGs的倍數變化方向。在第二種情況下,作者考慮以下組合:(a)細胞類型比例分布;(b)細胞總數;(c)特定(亞)細胞類型的比例變化。此外,當有更多(亞)細胞類型時,為了推動LRcell性能范圍,作者模擬了有5、10和15個(亞)細胞類型的情況,并改變了以各種方式均勻分布的基線比例。
3.4模擬結果
對于模擬研究,作者輪流改變每個單獨的(亞)細胞類型,然后運行LRcell或MuSiC并跟蹤改變的(亞)細胞類型的等級作為性能指標。因為在第一種情況下,沒有比例變化,所以作者不測試MuSiC的性能。LRcell能夠正確識別大多數(亞)細胞類型的變化。出現錯誤識別的情況是DEG數最少的情況(換句話說,模擬1000個DEG時)。對于第二種情況,作者比較了LRcell、MuSiC和GSEA(使用標記基因作為基因集)。作者觀察到MuSiC在所有設置下都表現穩定,而LRcell會產生一些錯誤。這是完全可以預料的,因為該場景符合MuSiC的假設,但不符合LRcell的假設,因為它不是細胞類型比例反卷積方法。作者還在有更多(亞)細胞類型的情況下比較了LRcell、MuSiC和GSEA。作者注意到,當有10種(亞)單元類型時,LRcell和MuSiC工作得同樣好,而當有15種(亞)單元類型時,LRcell的表現略好于MuSiC。特別是,對于比例增加20%的1000個細胞的設置,LRcell和MuSiC都檢測到不正確但相似的(亞)細胞類型。在所有設置下,LRcell和MuSiC的表現都優于GSEA。
3.5小膠質細胞在神經退行性癡呆中高度富集
在模擬研究之后,作者在真實數據分析中進行了LRcell。在最近的一項神經退行性癡呆研究中,Swarup及其同事使用RNA-seq將表達tau突變體的TPR50小鼠與野生型小鼠進行了對比,以識別介導癡呆的基因網絡(隨后的小鼠AD研究)。為了識別與該病癥最相關的細胞類型,作者使用來自成年小鼠FC區域的預嵌入標記基因將LRcell應用于DEG列表。從LRcell結果,作者觀察到小膠質細胞表現出高度顯著性(圖3A),這與之前的研究一致。此外,FC_11-3未知和FC_11–4未知(亞)細胞類型也顯示出高水平的顯著性。然而,所有細胞簇中標記基因的成對比較表明,這兩個未知細胞簇與FC_11-1有相當大的重疊,FC_11-1也是一種小膠質細胞類型(圖2B),這解釋了作者觀察到的模式。

圖3 將LRcell應用于實際案例。(A)LRcell將大量神經退行性癡呆DEGs映射到小鼠大腦FC區域的結果。(B)使用LRcell(小鼠大腦FC)中的相同標記基因作為輸入,繪制大面積神經退行性癡呆DEGs的GSEA結果。(C)用MuSiC計算對照和疾病樣本的細胞類型比例。(D)LRcell將大量PTSD DEGs映射到人類PBMC的結果。(E)使用LRcell(人類PBMC)中的相同標記基因作為輸入,GSEA結果將大量PTSD DEGs映射到人類PBMC。(F)用MuSiC計算對照和病例樣本的細胞類型比例。
3.6 CD16+單核細胞在創傷后應激障礙中高度富集
在最近的一項研究中,Breen及其同事使用從美國海軍陸戰隊收集的外周血白細胞進行了一項大規模的全轉錄組研究,其中一些在部署后出現了創傷后應激障礙(posttraumatic stress disorder,PTSD)(之后的人類PTSD研究)。使用這個數據集,作者生成了一個DEG列表,這些DEG顯示了PTSD組和對照組在部署前時間點之間的顯著差異。使用來自外周血單核細胞(PBMC)的單細胞轉錄組學研究的人類標記基因,LRcell分析發現注釋為CD16+非經典單核細胞的細胞在PBMC的所有細胞類型中顯示為最重要的(圖3D)。作者的發現具有生物學意義,因為如先前的研究所述,異質性存在于由CD16表面蛋白區分的單核細胞中,非經典單核細胞已被證實可調節創傷中的免疫反應。
3.7來自不同地區或時間點的標記基因
要應用LRcell,一個重要的問題是使用哪個標記基因組,即如何選擇組織來源與轉錄組研究中描述的組織類型相匹配的單細胞RNA-seq數據。這對于大腦等復雜組織尤為重要。為了解決這個問題,作者以小鼠AD研究為例,其中包含來自四個大腦區域的信息:皮質、海馬(hippocampus,HC)、小腦(cerebellum,CB)和腦干。為了了解標記基因如何在大腦區域之間變化,作者首先定義大腦所有區域的標記基因以探索它們的空間模式(圖2C和D)。作者觀察到來自不同區域的神經膠質細胞,例如星形膠質細胞,具有更多的重疊標記基因,這表明整個大腦的神經膠質細胞的同質性。相比之下,神經元和中間神經元在不同的大腦區域共享很少的標記基因。然后,作者將來自FC、HC和CB的預嵌入成年小鼠腦標記基因分別應用于從皮層、HC和CB獲得的大量DEG。作者觀察到小膠質細胞在所有三個大腦區域都高度富集,而星形膠質細胞的含量在CB中特別高。特別是當CB標記基因應用于CB bulk DE實驗時,作者注意到一種(亞)細胞類型的星形膠質細胞比其他類型的細胞高度富集。作者的觀察表明,所選擇的細胞類型在空間上是異質性的;這意味著標記基因不僅對細胞類型具有高度特異性,而且對細胞所屬的區域也具有高度特異性。由于這一發現,使用位于緊密匹配的大腦區域的細胞類型標記基因來運行LRcell是非常可取的。作者也很好奇從非正常樣本進行的scRNA-seq實驗中選擇的標記基因是否可以作為參考。為了解決這個問題,作者使用了來自HIV疫苗研究的數據,作者觀察到細胞類型特異性標記基因的表達在同一細胞類型(如CD8細胞)內的不同時間點上大多是一致的,并且在不同細胞類型之間是不同的。作者還嘗試使用從不同時間點收集的樣本中鑒定的標記基因進行LRcell分析,并觀察到富集信號幾乎相同。因此,盡管LRcell中使用的默認標記基因是從對照樣本中收集的,但作者認為,當來自正常樣本的scRNA-seq數據不可用時,從非正常樣本中鑒定的標記基因是可以接受的。
3.8與GSEA的比較
GSEA是一個強大的工具,可以在比較兩種生物條件時確定預定義的基因集是否顯示出一致的表達變化。通過將細胞類型特異性標記基因視為預定義的基因組,可以用GSEA代替LRcell來識別DEG驅動的細胞類型。為了比較這兩種方法的性能,作者使用GSEA重復小鼠AD研究和人類PTSD研究中所做的分析。GSEA結果來源于小鼠AD研究。小鼠AD研究的GSEA結果(圖3B)產生了幾種同樣重要的(亞)細胞類型,包括星形膠質細胞、內皮細胞、小膠質細胞、壁細胞、少突膠質細胞和多突膠質細胞。關聯意義導致難以確定哪些(亞)細胞類型可能參與癡呆發病機制。在人類PTSD研究的GSEA結果中觀察到類似模式(圖3E),這表明單核細胞、樹突狀細胞和一些T(亞)細胞類型同樣豐富。基于上述觀察,作者得出結論,LRcell比GSEA更有效地識別在DE實驗中受條件變化影響最大的(亞)細胞類型。
3.9 LRcell的特異性、魯棒性和運行時間
評估LRcell是否表現出良好的特異性(即低假陽性率)是有意義的。為此,作者模擬了在任何(亞)細胞類型中都沒有顯著DEG的空場景。當將LRcell應用于這種空的RNA-seq數據時,發現LRcell產生的結果要么沒有,要么更少,而且顯著性更弱,說明LRcell靈敏度良好。為了分析LRcell穩健性,作者從兩個角度進行實驗:(i)標記基因的數量是否強烈影響LRcell結果和(ii)不同的DEGs檢測方法是否影響LRcell結果。作者首先在人類PTSD研究中使用源自PBMC scRNA-seq數據集的不同標記基因數進行LRcell,作者得到了類似的富集性能,這表明了LRcell分析的穩健性。除了DESeq2,使用Voom和Limma對小鼠AD研究和人類PTSD研究進行DEG分析。在相同的標記基因設置下,作者注意到富集模式與FC_11-1相似。小膠質細胞與其他(亞)細胞類型一起高度富集。此外,作者分析了不同模擬場景下LRcell、GSEA和MuSiC之間的執行時間,觀察到LRcell和GSEA穩定快速,而MuSiC執行時間隨著參考單元數量的增加而增加。
4.結論:
總之,作者利用新出現的scRNA-seq數據開發了LRcell,這是一個R Bioconductor包,利用新出現的scRNA-seq數據,識別在比較轉錄組研究中驅動變化的(亞)細胞類型。LRcell的基本原理是相信修飾細胞類型的標記基因傾向于向DEG列表的頂部(或底部)富集。作者在各種實驗條件下應用LRcell進行全面調查,并成功識別在小鼠AD研究和人類PTSD研究中發揮重要作用的細胞類型。因此,作者相信LRcell可以為研究人員在(亞)細胞類型水平的生物學變化來源提供重要的和新的生物學見解,而無需進行昂貴且費力的scRNA-seq實驗。作者從模擬數據和真實數據中得出的結果表明,LRcell與細胞類型去卷積方法是互補的。因此,作者建議將LRcell納入RNA-seq分析,以全面了解復雜組織內(亞)細胞類型水平發生的變化。
參考文獻:Ma W, Sharma S, Jin P, et al. LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data[J]. Brief Bioinform. 2022,23(3):1-11.