在過去的十年,單細胞轉錄組測序(scRNA-seq)技術徹底改變了人們對細胞異質性的認識。從最初的只能應用于少量的細胞,到現(xiàn)在能夠對數(shù)千至數(shù)百萬個細胞進行檢測,scRNA-seq對生命科學領域產生了重要影響,并成為該領域重要的研究工具。不過,盡管最先進的scRNA-seq技術已經(jīng)足夠敏感,可以高精度地量化和確定細胞狀態(tài),但大多數(shù)方法依賴于條形碼寡核苷酸引物與聚腺苷化轉錄本poly(A)序列雜交,來進行RNA捕獲和互補DNA(cDNA)合成,這導致一些序列無法被檢測到,阻礙了非編碼RNA的差異表達和選擇性剪切(AS)及選擇性啟動子(AP)等層面的分析。因此,小編今天和大家介紹的一篇6月27日剛剛發(fā)表在Nature Biotechnology(IF:68.164)雜志上的文章,文章介紹了最新開發(fā)的 ‘vast transcriptome analysis of single cells by dA-tailing’ (VASA-seq)測序方法,這一測序方法能夠克服上述不足。
VASA-seq方法可以在基于平板和液滴微流控的scRNA-seq中捕獲非聚腺苷化和聚腺苷化的轉錄組。目前,VASA-seq是唯一一種結合了高靈敏度、全長轉錄組覆蓋和高通量的單細胞測序技術。文章將VASA-seq應用于發(fā)育中的小鼠胚胎的3萬多個單細胞,通過分析整個單細胞轉錄組的動態(tài)變化,發(fā)現(xiàn)了許多基于非編碼RNA的細胞類型標記,并通過檢測非聚腺苷化組蛋白基因進行了體內細胞周期分析。此外,研究人員還將VASA-seq與其他流行的scRNA-seq技術進行比較,揭示了VASA-seq的優(yōu)勢。總之,VASA-seq是一種具有高度敏感性的、可擴展的單細胞技術,其在未來可能有助于揭示當前mRNA轉錄組測序技術無法捕獲的生物學信息。接下來就讓我們一起來了解下這一未來可期的新的單細胞測序技術的廬山真面目吧。
High-throughput total RNA sequencing in single cells using VASA-seq
基于VASA-seq進行單細胞高通量全長RNA測序
一.背景知識
單細胞RNA測序(scRNA-seq)是研究樣本中單個細胞轉錄組特征的領先技術。目前,至少有20種以上的單細胞測序技術,這些技術在RNA捕獲效率、偏差、規(guī)模和成本方面存在顯著差異。目前具有代表性的兩個主流技術為Smart-seq2和10X Genomic,這兩種方法都存在各自的不足,例如Smart-seq2每次測序的細胞數(shù)量相對較少并存在 pcr 偏好,測序成本也比較高;而10X Genomic的缺點是一般只能檢測到轉錄本600nt以內的信息,其他信息會丟失。因此,小編今天和大家分享另一個高靈敏度、高通量、單細胞全長轉錄組測序方法VASA-seq,其是一種能夠對單細胞的全長轉錄組進行測序的新技術。
二.主要方法
1. 基于平板(VASA-plate)和液滴微流控(VASA-drop)的VASA-seq工作流:基于平板的技術主要步驟包括:384孔板細胞分選、細胞裂解和RNA碎裂、RNA修復和逆轉錄及second-strand合成。基于液滴微流控的技術主要流程包括:液滴產生裝置的設計、液滴注射裝置的設計、微流控模子的光刻、軟光刻技術、電池加載和液滴收集及回注室制造、微流體設備操作、聚丙烯酰胺珠條碼、油包水乳液中細胞包埋、細胞裂解和RNA碎裂、首次注射RNA和poly(A) 尾、二次注射用于逆轉錄。
2. VASA-drop和10x Chromium的FASTQ文件預處理:研究中VASA-drop的原始讀數(shù)使用Python腳本進行預處理。對于每個Read1,提取UMI和細胞特異性條形碼。作者為每個可能的條形碼繪制了log10(read數(shù))的直方圖,并將其擬合到一個多項式函數(shù),該函數(shù)顯示了兩個或三個最小值,作者使用log10(read)的最大值最小的位置作為閾值:只有read高于此閾值的條形碼用于下游分析。
3. VASA-plate的FASTQ文件預處理:VASA-plate流程中 中Read1從一個6 nt長的UFI或UMI開始,然后是一個8 nt長的細胞特異性條形碼,有384個細胞特異性條形碼,每個條形碼對應384孔板中的一個孔。
4. 數(shù)據(jù)映射:研究中將Read2分配給接受的條形碼,并使用TrimGalore與默認參數(shù)進行修整,接著將修剪后的reads映射到小鼠或人類rRNA。其余的reads映射到小鼠GRCm38基因組或人類GRCh38基因組。
5. 小鼠的VASA-seq文庫及10x Chromium文庫和單個時間點的scRNA序列分析:VASA-seq研究中Scrublet和Scanpy包與自定義代碼一起使用。分析中有85 - 95%的轉錄本屬于蛋白質編碼基因,13%的轉錄本屬于lncRNA, 5%的轉錄本屬于小RNA的細胞保留。未剪切和剪切的蛋白編碼基因在計數(shù)表中被作為不同的條目。組蛋白基因轉錄總數(shù)在35以上的細胞被認為處于s期。通過t檢驗確定細胞周期基因,分析s期和非s期細胞之間的差異基因表達。接下來,選擇平均log表達在0.0125 ~ 5之間的高變量基因,并排除細胞周期基因。對于所有時間點,作者選擇了前50個主成分,構建一個連接最近鄰細胞的有向圖,并將有向圖轉換為無向圖,得到二維UMAP,并分析簇之間的差異基因表達。小鼠的10x Chromium文庫和單個時間點的scRNA序列分析與VASA-seq相似。
6. 10x Chromium與VASA-seq胚胎數(shù)據(jù)的比較:為了進行比較,作者只在基因體的80% 3’端進行reads映射,生成VASA-seq和10x Chromium的計數(shù)表,并只使用兩種技術中表達的基因進行比較。從合并的VASA 10x Chromium數(shù)據(jù)集通過PCA進行降維。在組合PCA空間中計算細胞之間的距離,對于給定的簇和參考技術,獲得了該簇中的細胞與它們在目標技術中對應的第一個最近鄰之間距離的背景直方圖。最后,將目標技術中的每個細胞分配到參考技術中其最近鄰的簇中。VASA-seq和10x Chromium之間的等效簇被定義為具有相同10x Chromium和VASA簇分配的細胞組。為了給每個等效簇分配一個胚層,研究使用了已發(fā)表的10x Chromium數(shù)據(jù)的注釋。
7. VASA-drop小鼠胚胎數(shù)據(jù)的UMAP:作者首先構建一個有向圖,對于每個時間點中的每個細胞,找到來自同一時間點和前一個時間點的細胞子集中最近的前30個鄰居。為此,將子集中的所有細胞投影到最近時間點的PCA空間,并計算距離。接下來,提取無向圖并將數(shù)據(jù)投影到二維UMAP中。
8. 擴展轉錄組注釋:研究中每個細胞的FASTQ文件被用來重建轉錄組和量化AS事件。作者使用基于Hisat2及StringTie2和其他自定義腳本實現(xiàn)了一個自定義計算工作流。首先,通過一個Python腳本刪除PCR重復,然后,根據(jù)之前獲得的Leiden簇對讀數(shù)進行分組,并使用HISAT2映射到參考小鼠基因組GRCm38。對每個簇的比對進行組裝,然后使用StringTie2合并。接下來使用gtfcompare將得到的GTF文件與輸入的轉錄組注釋進行比較,其將編碼為k、m、n、j、x、i或y的三個或三個以上外顯子的新轉錄本附加到輸入轉錄組注釋中,擴展了原始注釋轉錄本集。最后,為了進一步提高潛在的新轉錄本的質量,作者實施了額外的自定義過濾步驟,并使用MicroExonator獲得了一個轉錄組注釋,隨后使用自定義腳本進行處理。
9. 跨細胞類型的AS事件的量化:分析中擴展轉錄組注釋的最終GTF使用Whippet來量化亞型和AS事件。作者通過MicroExonator的下游模塊運行Whippet,使用scRNA-seq數(shù)據(jù)分析AS事件,該數(shù)據(jù)允許將細胞隨機聚合成偽塊,并跨細胞類型對AS進行兩兩比較。為了確定不同細胞類型之間AS譜,作者使用PAGA根據(jù)基因表達計算細胞簇之間的連通性。然后,比較了連通性≥0.05的72對簇。在每次比較中,每個簇中的細胞被隨機匯集,形成至少三個不同的偽塊。為了展示檢測到的AS事件對蛋白質功能的影響,研究使用drawProteins 包繪制了UniProt中標注的蛋白質結構域和其他特征的比例圖。
三.文章的主要內容
1. VASA-seq可以在單細胞中使用平板或液滴檢測非聚腺苷化和聚腺苷化轉錄本
文章首先對VASA-seq進行了總體介紹,VASA-seq第一步是從單細胞裂解物中分離RNA分子,然后進行末端修復和poly(A)引入,實現(xiàn)在條形碼寡聚dT探針中合成cDNA。此外,一種獨特的片段識別器 (UFI)允許對具有鏈特異性的分子進行精確定量,利用體外轉錄擴增條形碼cDNA,并清除擴增后的核糖體RNA(rRNA)。VASA-seq的后續(xù)流程則類似于CEL-seq。研究人員將VASA-seq工作流應用于平板(VASA-plate)和液滴微流控(VASA-drop)兩種技術。其中基于平板的技術是廣泛可用的;基于液滴微流控的技術可用于高通量捕獲細胞群體,操作時間更少,試劑成本更低。在基于液滴微流控的流程中,研究團隊還優(yōu)化了三種微流控芯片,實現(xiàn)更高通量(圖1)。

2. VASA-seq的條形碼混合、生物型檢測、基因體覆蓋及敏感性
在文章的第二部分,為了驗證VASA-drop微流控處理過程中液滴室的完整性,研究人員利用小鼠胚胎干細胞(mESCs)和人類HEK293T細胞進行了物種混合實驗,結果發(fā)現(xiàn)僅有3.08%的異型雙倍率。然后,作者也使用HEK293T細胞,將VASA-seq方法與廣泛使用的10x Chromium液滴平臺、高度敏感的Smart-seq和總RNA-seq Smart-seq-total平板工作流程進行了比較(圖1e、f),結果發(fā)現(xiàn)VASA-drop和VASA-plate在蛋白質編碼基因體中均表現(xiàn)出均勻覆蓋。相比之下,10x Chromium的大部分讀取位于3端附近。對于包含UMI的讀數(shù),Smart-seq對5端有較大的偏差,對于其余的讀數(shù)則對3端有較大的偏差,這在Smart-seq-total中也可以觀察到(圖1e)。蛋白質編碼基因是所有方法中檢測率最高的生物型。然而,VASA-plate和VASA-drop檢測到的長非編碼RNA(lncRNAs)都是10x Chromium、Smart-seq和Smart-seq-total的兩倍。并且只有VASA-seq和Smart-seq-total檢測到短非編碼RNA (sncRNAs)。然后,作者分析了每種方法對所有注釋基因的檢測靈敏度和飽和率,結果發(fā)現(xiàn)VASA-drop顯示出最高的敏感性,其次是VASA-plate,兩者的基因檢出率均高于Smart-seq和10x Chromium,并優(yōu)于Smart-seq-total(圖1f)。同樣,兩個VASA-seq工作流程都顯示了對蛋白質編碼基因的卓越檢測。總之,VASA-seq結合了10x Chromium液滴微流控平臺的高通量、Smart-seq方法的高靈敏度和Smart-seq-total的廣譜捕獲非編碼RNA。此外,該方法保持了整個基因體的均勻覆蓋。
3. VASA-seq擴展了小鼠胚胎中細胞類型特異性標記基因的列表
在這一部分,作者使用VASA-seq的上述優(yōu)勢來擴展和改進當前的小鼠發(fā)育圖譜。作者使用VASA-drop生成了小鼠原腸發(fā)育和早期器官發(fā)生的單細胞總RNA-seq圖譜,共對小鼠胚胎植入后E6.5、E7.5、E8.5和E9.5期的33662個單細胞進行了測序(圖2a)。作者將VASA-seq數(shù)據(jù)集直接與使用10x Chromium平臺生成的參考數(shù)據(jù)集進行比較發(fā)現(xiàn),VASA-seq檢測到的蛋白編碼轉錄本比例略低,但lncRNAs和轉錄因子(TFs)檢測到的水平要高出2-3倍,且sncRNAs僅在VASA-seq數(shù)據(jù)集中被捕獲(圖2b)。總的來說,兩種方法在不同的時間點上都發(fā)現(xiàn)了大多數(shù)基因(圖2c),但部分基因僅在VASA-seq數(shù)據(jù)集中檢測到。接下來,作者為了探索VASA-seq圖譜是否為不同的細胞類型提供了更多的標記基因,識別了VASA-seq和10x Chromium中都存在的等效細胞簇,并通過差異基因表達分析對它們進行比較(圖2d,e)。結果發(fā)現(xiàn)在10x Chromium和VASA-seq數(shù)據(jù)集之間共有的43個等價簇,總的來說,VASA-seq檢測可到更多的差異上調基因,表明VASA-seq可以擴展已知標記基因的列表,特別是對于未拼接的蛋白編碼基因和lncRNA基因。

4. 組蛋白基因作為周期細胞的體內標記物
在這一部分,作者為了進一步識別VASA-seq固有的全局基因特征,通過比較所有基因在等效簇和時間點的平均表達值來進行差異基因表達分析。該分析發(fā)現(xiàn)VASA-seq中一個顯著高表達的基因子集,包括許多組蛋白基因。作者推斷,組蛋白基因表達可以進一步用于識別細胞周期狀態(tài),因為大多數(shù)典型組蛋白基因在s期強烈上調。分析發(fā)現(xiàn)與10x Chromium相比,VASA-seq細胞組蛋白基因總表達的直方圖顯示其呈雙峰分布(圖3b)。作者也進一步將不同時間點的所有細胞嵌入到單個UMAP中,并在數(shù)據(jù)集上可視化組蛋白基因的總表達。結果發(fā)現(xiàn)高組蛋白表達的細胞與從低組蛋白表達的細胞明顯分離,這是使用標準scRNA-seq細胞周期評分方法無法檢測到的特征。此外,VASA-seq數(shù)據(jù)集中組蛋白表達的雙峰分布使細胞被分為s期或非s期(圖3d)。接著作者通過從數(shù)據(jù)集中移除細胞周期基因,回歸出細胞周期的影響,并產生了一個具有減少細胞周期模式的改進UMAP(圖3d)。接著作者對回歸數(shù)據(jù)進行聚類,并根據(jù)差異基因表達獲得的標記為每個聚類分配一個細胞類型注釋(圖3e)。接下來,作者探索某些細胞類型是否循環(huán)更頻繁,結果發(fā)現(xiàn)小鼠胚胎中每種細胞類型處于s期的細胞比例為65±11%。然而,一些細胞類型顯示s期細胞比例較高(圖3f)。作者還發(fā)現(xiàn)從E6.5到E8.5,只有滋養(yǎng)外胚層的s期細胞比例未發(fā)生改變(圖3g)。其他細胞類型的s期細胞數(shù)量在各個時間點上都有所減少(圖3g)。此外,作者發(fā)現(xiàn)10個單注釋基因(圖3h)和14個多注釋基因在至少一種細胞類型中顯著上調。部分組蛋白基因具有胚層和細胞型特異性表達(圖3i,)。總之,VASA-seq能夠檢測到大量的組蛋白基因,這些基因在整個數(shù)據(jù)集是魯棒的。

5. VASA-seq增加內含子覆蓋率可以提高RNA速度評估
VASA-seq檢測到的大量未剪切轉錄本表明,使用該方法可以增強RNA速度譜,該速度譜是利用每個基因的未剪切與剪切計數(shù)之比計算的。因此,在這一部分作者以隨機模式使用scVelo包計算所有細胞在全部四個時間點上的速度和置信值。結果發(fā)現(xiàn)在UMAP中,速度矢量方向明確地遵循了連續(xù)的時間點和細胞類型的進展,再現(xiàn)了之前描述的小鼠胚胎發(fā)育的軌跡(圖4a)。接著為了與同等的10x Chromium數(shù)據(jù)集進行對比,研究使用E6.5、E7.5和E8.5時間點對兩個數(shù)據(jù)集進行了重復分析。結果發(fā)現(xiàn)與10x Chromium相比,VASA-seq的RNA速度矢量總體上有更高的可信度(圖4b)。接下來,作者提取了對RNA速度矢量有顯著貢獻的基因,發(fā)現(xiàn)VASA-seq檢測到大量額外的基因(圖4c)。對于兩種方法共有的基因,作者用scVelo的預測對基因相位圖的擬合度(r2)進行量化(圖4d),結果發(fā)現(xiàn)在擬合優(yōu)度方面,VASA-seq的擬合優(yōu)度優(yōu)于10x Chromium數(shù)據(jù)。接下來為了確定這些測量是否能夠實現(xiàn)更準確的軌跡預測,作者將來自10x Chromium數(shù)據(jù)集的速度矢量投影到UMAP上,該分析揭示了血液成熟過程中的不同軌跡(圖4e)。作者利用scVelo的動態(tài)模型對E7.5和E8.5的血細胞類型進行潛在時間預測發(fā)現(xiàn)10x Chromium數(shù)據(jù)集軌跡具有不一致性(圖4f,g)。而VASA-seq沒有這些觀察結果,VASA-seq準確地報告了物理采樣時間點的血液成熟情況(圖4h)。這些發(fā)現(xiàn)強調了使用VASA-seq可以進行更敏感的RNA速度測量來識別跨細胞類型的軌跡。此外作者認為基于VASA-seq對非編碼基因體捕獲,可以確定跨組織的lncRNA動力學。這些觀察結果無法在10x Chromium數(shù)據(jù)集中復現(xiàn),因為無法檢測到這些lncRNA的未剪切分子。可見VASA-seq具有更好的能夠指導分化軌跡和識別新的基因表達動力學的RNA速度矢量。

6. AS在小鼠原腸和早期器官發(fā)生中的綜合分析
VASA-seq大規(guī)模分析全長轉錄組的能力可幫助研究人員識別跨細胞類型的AS模式。每個剪切節(jié)點都與不同類型的AS、不同的轉錄起始位點或不同的多聚腺苷化事件相關。因此,在這一部分為了檢測不同細胞類型的差異剪切點(Differentially included splicing nodes, DISNs),研究人員通過兩兩比較來檢測相關細胞的穩(wěn)定AS變化。作者將分析重點放在檢測到DISNs最多的15對比較中,發(fā)現(xiàn)它們主要富集在涉及心臟形態(tài)發(fā)生、早期原腸、胚胎外組織和血液發(fā)育的細胞類型中,表明AS廣泛參與這些過程(圖5)。

7. 血液和心臟相關細胞類型的AS分析
在文章的最后一部分,作者對血液和心臟相關細胞類型的AS進行了分析。結果發(fā)現(xiàn)在所有細胞類型中,與第一心臟場(FHF)相比,原始心管(PHT)表現(xiàn)出更多的AS特征,這些變化發(fā)生在心臟經(jīng)歷廣泛形態(tài)發(fā)生時(圖6a)。此外,分析也發(fā)現(xiàn)Rbfox2的一對相互排斥的外顯子是FHF和PHT比較中最顯著的DISN(圖6b)。此外,作者也進一步展示了UMAP上上述剪切位點的單細胞ψ值,揭示了整個圖譜中細胞類型特異性的模式(圖6d)。研究人員將與其他細胞類型相偏離的剪切節(jié)點標記為剪切節(jié)點標記(SNMs),研究檢測到參與心臟發(fā)育和早期原腸胚發(fā)育的細胞類型中SNMs的數(shù)量增加。在所有細胞類型中,原始心管的剪切模式最多樣化。這些結果表明VASA-seq可以通過測量不同細胞類型的AS來揭示細胞類型特異性基因功能。

到這里這篇文章的主要內容就介紹完了,VASA-seq是一種能夠對單細胞的全長轉錄組進行測序的新技術,其在可擴展性、敏感性、基因組覆蓋率和lncRNA檢測方面都具有卓越的優(yōu)勢。此外,該方法在基于平板(VASA-plate)和基于液滴微流控(VASA-drop)的流程中都保持了良好性能,這使得高通量單細胞全長轉錄組分析成為可能。更重要的是,VASA-seq方法需要的試劑成本較低,這使得廉價、高通量、準確的單細胞轉錄組分析成為可能,可以說這一測序方法有望在未來進一步推動單細胞領域的發(fā)展。