對于單細胞轉錄組數據,除了常規的分析,還能夠看點突變(SNV)的在不同細胞間的區分。近期Science Advance的論文“scAllele: A versatile tool for the detection and analysis of variants in scRNA-seq”介紹的ScAllele,就是一款針對單細胞轉錄組數據開發的多用途變異檢測分析工具。
論文地址:https://www.science.org/doi/10.1126/sciadv.abn6398
1)算法概述
可變剪切是RNA高級分析中的一項關鍵任務,圍繞可變剪切帶來的剪切異構體(splicing isoform),以及位于調控區的點變異導致的表達量差異,都有著臨床價值。在bulk RNA測序數據中,檢測點變異的方式,是對比對結果,使用在WGS分析中常用的GATK或Freebayes去做變異檢測。然而在單細胞轉錄組數據中,由于數據的稀疏導致已有方法無法進行變異檢測。
scAllele不僅可以在測序深度較低時,檢測單堿基突變與小的缺失刪除。通過將read聚類之后進行局部組裝,之后基于變異所在位置的特征(如串聯重復、附近序列的堿基質量、整體等位基因比率和RNA感知的單倍型擬合)對變異的真假進行打分,綜合判斷變異是否為真,再利用外顯子區域變異的read和內含子區域的變異計算互信息,判斷是否存在變異特異性剪切,具體如下圖所示:

圖1 scAllele的算法概述
之后在標準品GM12878上,驗證scAllele的準確性。測試數據為smart-seq檢測的全長單細胞轉錄本數據,對比的方法為常見的變異檢測工具,分別是GATK HC,Platypus 及freebayes。評價指標為檢出的真陽性位點的個數,將區域分為所有區域,高可信度區域,ONT測出的變異以及NGS難以檢出的區域,考慮不同的假陽性值。可以從圖2A和B上看出,如論對于單堿基變異還是插入刪除,scAllele檢出的真陽性位點個數,在檢出同等個數的假陽性是都更高,這說明scAllele能夠準確檢出變異。圖c展示了對于經過一代測序驗證的插入變異,scAllele能夠全部檢出,但其它的算法則無法全部都檢出,這進一步說明了ScAllele能夠檢出更全的變異。
2)準確性驗證

圖2;使用金標準評價scAllele進行變異檢測的準確性
針對單細胞轉錄組數據測序深度較低的問題,作者還評價了在不同深度下scAllele檢出的真陽性位點的個數,從圖c可看出,不論對于單堿基變異還是小的插入刪除,在深度小于5層時,scAllele能夠檢出的真陽性變異更多。而在深度10層以上后,由于單細胞測序的稀疏性,導致沒有區域能測得這么深,故檢出的變異數趨近于0。對于雜合型變異,scAllele檢出的變異的堿基比例,相比其他方法,也更接近理論預期的正態分布。
3)真實數據中的應用
之后,在兩個真實的單細胞轉錄組(肺癌細胞與正常細胞的配對)中,使用scAllele進行變異檢測,在總計96個細胞的數據上可高效完成分析(使用36 CPU時,可以在3小時內,以14G內存完成)。在更多細胞數時,可以通過切分染色體并行加速。
scAllele能夠檢出大量新發突變(無法通過dbSNP數據庫進行注釋),尤其是在插入刪除類的變異中(由于之前的方法難以檢出這類變異);相比具有特定突變,因此被數據庫收錄的癌細胞,正常細胞中檢出的新發突變所占比例更高(圖3A),癌細胞在檢出的變異在記錄癌癥相關變異COSMIC數據庫中被更多地收錄。在對檢出的變異進行了功能注釋后,可看出正常細胞(C)與癌癥細胞(CE)的變異組成有顯著差異。癌細胞的變異有更大比例富集在外顯子和3‘UTR區域(圖3B),外顯子區域在改變蛋白質序列、產生新抗原或調節基因表達方面的潛在作用,而鑒于3′UTRs中存在大量的調控元素(32),這些區域的遺傳變異可能會改變許多過程,如mRNA的穩定性、翻譯或mRNA的定位,這些都應在未來進行研究。
通過IGV,對比對結果進行可視化,可以看出兩個變異特異的可變剪切事件(圖3c)。在檢測的細胞數增加后,scAllele檢出的變異連鎖事件數在癌細胞和正常細胞中都會增加(圖3d);而通過對五個超高測序深度的單細胞轉錄組進行降采樣,可以看到在深度降低時,檢出的變異間連鎖事件會減少(圖3e),這說明了單細胞測序要想檢出連鎖變異,需要較高的測序深度。而通過將多個細胞的數據混合后找出的連鎖變異和單個細胞進行對比,發現在混合數據中檢出的連鎖變異,(圖3f)只有42.6%可在單細胞中檢出,這說明了盡管將多個細胞的測序數據混合,能夠識別出某些類型的連鎖變異,但也會導致漏檢,這說明了需要采取單細胞轉錄組的必要性。

圖3 對兩對肺癌細胞與配對的正常細胞的單細胞轉錄組通過scAllele進行變異檢測得到的結果
在找出連鎖變異后,scAllele可以據此找出變異特異性剪切,圖4a展示了正常細胞和癌細胞中找到的變異特異性剪切,可看到癌細胞中有更多的變異特異性剪切,癌細胞和正常細胞間的變異特異性剪切基本沒有重合,從在多個細胞間出現相同變異特異性剪切的個數來看,可看到細胞間存在顯著的差異性。之后可以根據是否只在癌細胞中出現,將變異特異性剪切分為條件相關與無關兩種(圖4c),而大部分變異特異性剪切,只在癌細胞中出現(圖4b),且大部分只在單個細胞中出現。將找到的變異特異性剪切所在的基因進行GO注釋(圖4d),可以判斷其生物學意義,例如癌細胞相關的變異特異剪切,最多發生在MHC,基因損害修復及TNFR調控上。

圖4 scAllele檢出的變異特異剪切具有條件特異性,能對應到特定的生物學功能
4)總結
scAllele在基于單細胞轉錄組變異體檢測方面優于其他流行的方法,尤其是對之前難以檢出的小的插入刪除類變異,scAllele的算法建立在局部組裝的基礎上,通過將read對齊,糾正了每個read中可能出現的測序錯誤,從而提高了變異檢測精度。此外,scRNA-seq的聯合變異檢測模式,通過將多個同類細胞的數據混合在一起進行變異檢測利用了數據中多個細胞的可用性。scAllele在保留單個細胞水平上變異信息的同時,能在考慮到每個細胞的單一和聯合分析的情況下給出最佳的變異檢測結果。而將scAllele應用于肺癌scRNA數據后,可以找出很多新發的突變,并找出單細胞中特異的變異特異性剪切,考慮到對可變剪切現象,之所以沒有得到充分的探索,很大一部分是由于缺少合適的分析工具,scAllele彌補了這一空缺,并擴展了單細胞轉錄組數據的分析范圍,使研究者可以對每個細胞的遺傳景觀和基因表達復雜性的潛在遺傳驅動因素進行分析。