大家好,今天給大家做一個文獻解讀,隨著生物信息學的發展和大量文章的發表,簡單的生物實驗、通路機制類的文章已經不再新鮮,期刊雜志也不滿足于簡單的實驗類文章,生物信息學文章近年來大量發表,而文章中應用到的生物信息學方法也內卷嚴重,那么我們除了做簡單的生物信息學分析外,要多看多學多用,創新的算法與實驗結合,讓投文章更加簡單。
這個期刊的水平不用多說,中科院一區,OA雜志,11年出版,《Theranostics》創刊第2年即被SCI收錄,首個影響因子就有7.806分之高,此后三年逐年攀升,2015年后的連續三年下降終于開始上漲,在2019年達到峰值8.579分,今年更是達到了11.6分,隨著影響因子的通貨膨脹,預測接下來還會繼續升高。
首先這篇文章值得一提的是它的算法圖,不愧是一區的文章,圖的布局相當好看,也十分恰當把文章中的關鍵點、創新點直觀的展示給讀者。

本研究利用一種新的計算框架和10種機器學習算法(101種組合),綜合分析低級別膠質瘤(LGG)純化的免疫細胞、LGG細胞系和LGG大體積組織的測序數據,篩選出TIIC lncRNAs。
大家都知道,長鏈非編碼rna (long noncoding RNAs, lncRNAs)作用關鍵,可以參與免疫系統的調節,在免疫細胞亞群中表現出細胞類型的特異性模式。鑒于腫瘤浸潤淋巴細胞在有效免疫治療中的重要作用,研究者探索了在低級別膠質瘤(LGG)中尚未發現的腫瘤浸潤免疫細胞相關lncRNA (TIIClncRNA)。
說起來,腫瘤浸潤免疫細胞相關的lncRNA肯定是有很多相關的研究了,但作者選題角度也很刁鉆,選擇了癌癥研究較少的膠質瘤,并進一步篩選出低級別膠質瘤,這一點使得他的研究不是重復而無意義的了,選題新穎。
1.首先介紹一下作者的數據來源,無非就是這幾個常用的公共數據庫TCGA-LGG, CGGA數據庫,GEO數據庫的十六個膠質瘤數據集以及癌癥細胞系百科全書項目CCLE。
2.接下來是對轉錄組數據的處理,對芯片數據進行歸一化處理,FPKM數據轉化為TPM數據,通過GENECODE數據庫對Lncrna探針進行注釋。
3.通過對純化的免疫細胞、LGG細胞系和LGG腫瘤組織的lncRNA分析,研究者利用一種新的計算框架,結合多種機器學習算法識別腫瘤浸潤性免疫細胞相關lncRNA (TIIClnc) signature。
4.TIIClnc signature的免疫相關特征注釋:
收集到7種免疫調節劑。計算T細胞炎癥基因表達譜(GEP)、細胞毒活性(CYT)和干擾素γ (IFN-γ)。
從TCGA數據庫中收集腫瘤突變負擔(TMB)、微衛星不穩定性(MSI)、T細胞受體(TCR)豐富度、TCR Shannon和SNV Neoantigen。
使用GATK4從湘雅內部數據集的RNA測序數據中搜索snp和indel。
采用基于來自genome Reference Consortium(基因組參考聯盟)的智人基因組裝配體“GRCh38”的方差分析方法對突變信息進行標注。進一步利用R軟件包maftools的tmb函數計算湘雅內部數據集的tmb值。利用R包PreMSIm對湘雅內部數據集的MSI值進行預測。
如前所述,確定了6種免疫亞型和immunophenoscore(IPS)。采用腫瘤免疫估計資源(TIMER)算法、單細胞基因集富集分析(ssGSEA)算法、微環境細胞種群計數器(MCPcounter)算法和利用表達數據(ESTIMATE)算法估計惡性腫瘤基質細胞和免疫細胞,計算免疫浸潤細胞的豐度和ESTIMATE評分。
收集癌癥免疫周期,顯示趨化因子和免疫調節劑的功能狀態,并通過基因集變異分析(gene set variation analysis, GSVA)富集出114條代謝通路。使用GSVA進行計算,基因本體(GO)和京都基因和基因組百科全書(KEGG)富集,并使用gsva和基因集富集分析(GSEA)進行量化。
5.為了進一步體現TIIClnc signature對免疫治療反應的預測價值,使用GSE35640(黑素瘤)、GSE91061(黑素瘤)、GSE78220(黑素瘤)、Allen(黑素瘤)、Nathanson(黑素瘤)、IMvigor(尿路上皮癌)、Braun(腎細胞癌)、GSE179351(結直腸腺癌和胰腺腺癌)、GSE165252(食管腺癌)和PRJNA482620(膠質母細胞瘤)數據集預測免疫治療反應,同時計算每個數據集的TIIClnc標記。GSE103668(三陰性乳腺癌)數據集用于預測靶向治療反應(順鉑和貝伐單抗)。亞類圖譜用于預測抗pd-1和抗ctla-4免疫治療反應。本節也使用了Tumor Immune Dysfunction and Exclusion (TIDE)算法。
6.接下來是文章的實驗部分,使用了湘雅的膠質瘤數據,做了RT-pcr數據,對LOC101928134和LOC100133461進行了表達量分析。
將三組轉染sirna的THP-1細胞離心,使用無血清培養基重懸。調整密度為105個細胞/mL。上腔加入細胞懸液100 μL,下腔加入含10% FBS的1640 500 μL。培養48 h后收集下腔遷移的THP-1細胞,流式細胞術計數。后續做了細胞實驗與染色。
圖2結果展示了TIIClnc信號的預后價值。這部分結果展示了各個算法組合后,對TIIClnc signature的篩選過程,并通過一系列生存分析和ROC曲線展示其重要性。

A.通過10倍交叉驗證框架,共有101種用于TIIClnc signature的機器學習算法組合。通過TCGA-LGG、湘雅內部、CGGA-LGG和GSE108474等驗證數據集計算各模型的c-index。
B.基于CoxBoost算法的16個最具價值的TIIClncRNAs展覽。
C.基于RSF算法確定誤差最小的TIIClnc signature樹的數量,以及16個最有價值的TIIClncRNA的重要性。
D. TCGA- LGG、湘雅內部、CGGA- LGG和GSE108474數據集中TIIClnc signature得分高和TIIClnc signature得分低的患者的OS生存曲線Kaplan-Meier。
E. CGGA-LGG、湘雅內部、TCGA-LGG和GSE108474數據集1年、2年、3年、4年和5年OS的時間依賴性ROC曲線,顯示了這組 signature具有較好的穩定性。
圖3. TIIClnc signature與其他模型的比較。通過不同數據集進行比對,并引入了其他隨訪數據進行比對。

A. TCGA-LGG、湘雅內部、CGGA-LGG和GSE108474數據集的TIIClnc signature、其他臨床因素和組合 signature的C-index。
B. TCGA LGG、湘雅內部、CGGA LGG和GSE108474數據集中的TIIClnc特征的1年、2年和3年校準曲線。
C. TIIClnc signature的C-index和TCGA LGG數據集中開發的其他模型。
D. TIIClnc signature的C-index和湘雅內部數據集中開發的其他模型。
E. TIIClnc signature的C-index和CGGA LGG數據集開發的其他模型。
F. TIIClnc signature的C-index和GSE108474數據集中開發的其他模型。
圖4. 湘雅內部數據集中TIIClnc signature的免疫相關特征,TIIClnc signature與免疫細胞浸潤與免疫調節進行熱圖分析,研究他們之間的相關。

A.顯示TIIClnc信號與免疫浸潤細胞相關性的熱圖。
B.顯示TIIClnc signature與免疫調節分子之間相關性的熱圖。
C.顯示兩個TIIClnc signature評分組之間的CYT水平的小提琴圖。
D.顯示兩個TIIClnc signature得分組之間的GEP水平的小提琴圖。
E.顯示兩個TIIClnc signature評分組之間IFN-γ水平的小提琴圖。
F.顯示兩個MSI組間TIIClnc水平的小提琴圖。
G.顯示兩個TIIClnc signature分數組之間TMB水平的小提琴圖。
H.兩個TIIClnc signature得分組之間IPS級別的小提琴圖。
圖5. TIIClnc signature對免疫治療反應的預測價值,根據TIIClnc signature對數據集的評分對預后數據進行評價。

A. IMvigor數據集中TIIClnc評分高與TIIClnc評分低的患者間OS的Kaplan-Meier生存曲線。
B. IMvigor數據集中顯示不同免疫治療反應患者TIIClnc signature評分的箱線圖。
C.顯示GSE179351數據集中不同免疫治療反應患者TIIClnc signature評分的框圖。
D. Braun數據集中TIIClnc評分高和TIIClnc評分低的患者之間的OS生存曲線。
E. Braun數據集中顯示不同免疫治療反應患者TIIClnc signature評分的方框圖。
F.顯示GSE103668數據集中不同免疫治療反應患者TIIClnc signature評分的方框圖。
G.顯示GSE165252數據集中不同免疫治療反應患者TIIClnc signature評分的框圖。Allen數據集中TIIClnc評分高和TIIClnc評分低的患者的OS生存曲線。
I. Allen數據集中顯示不同免疫治療反應患者TIIClnc signature評分的方框圖。GSE78220數據集中TIIClnc高評分和TIIClnc低評分患者OS的J. Kaplan-Meier生存曲線。
K. Box圖顯示GSE78220數據集中不同免疫治療反應患者的TIIClnc signature評分。Nathanson數據集中TIIClnc評分高和TIIClnc評分低的患者之間的OS生存曲線。
M. Box圖顯示Nathanson數據集中不同免疫治療反應患者的TIIClnc signature評分。
N. Box圖顯示GSE35640數據集中不同免疫治療反應患者的TIIClnc signature評分。
O. Box圖顯示GSE91061數據集中不同免疫治療反應患者的TIIClnc signature評分。
P.湘雅內部數據集中基于TIDE算法的免疫治療反應與TIIClnc signature評分組的聯列表。
Q.基于湘雅內部數據集的子圖分析,免疫治療反應(anti-PD-1和anti-CTLA-4)和TIIClnc signature評分組之間的聯列表。PRJNA482620數據集中TIIClnc得分高和TIIClnc得分低的患者之間的OS生存曲線。
圖6. 之后作者通過實驗驗證進一步證明了分析的準確性。

A.散點圖顯示了湘雅內部數據集中TIIClnc signature評分與CD8、PD-1、PD-L1之間的相關性。
B. Box圖顯示湘雅內部數據集中兩個TIIClnc signature評分組之間基于IHC染色的CD8、PD-1和PD-L1的h評分水平。h評分用強度評分*數量評分計算。強度得分為0、1、2、3,分別為負、弱、中、強。數量得分0、1、2、3、4分別代表10%、10-25%、25-50%、50-75%、75%染色細胞的比例。H-score的取值范圍為0 ~ 12。
C.湘雅內部數據集中兩個TIIClnc signature評分組中CD8、PD-1和PD-L1的代表性IHC染色圖像。
圖7.湘雅內部數據集中TIIClnc signature的功能注釋,對 signature進行功能學分析,是文章與臨床更巧妙的結合起來。

A.兩組TIIClnc signature評分組癌癥免疫周期差異的方框圖。
B.基于GO和KEGG項的gsa顯示TIIClnc標志評分與代謝通路、免疫相關通路的相關性蝴蝶圖。免疫圖雷達圖顯示了
C. Kobayashi和D. Bagaev開發的TIIClnc signature評分和TIME signature之間的相關性。
E. GSEA的GO 富集中TIIClnc signature分數。
F. GSEA的KEGG富集中TIIClnc signature得分。
文章小結:
研究者基于豐富的機器學習算法對純化的免疫細胞、LGG細胞系和大量LGG組織的測序數據進行綜合分析,開發出一種穩定、魯棒的TIIClnc signature來分層LGG患者和預測免疫治療的結果。其中的機器學習方法很值得我們借鑒。