t-分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding, t-SNE)廣泛用于單細胞RNA測序(scRNA-seq)數(shù)據(jù)可視化分析,但是它很難擴展到大型數(shù)據(jù)集。2019年2月11日發(fā)表在Nature Methods的最新文章,推出了一種基于快速插值t-SNE的單細胞RNA-seq數(shù)據(jù)分析方法,該方法極大地加快了t-SNE的分析速度,消除了數(shù)據(jù)向下采樣(downsampling)的要求,更易對稀有細胞群體進行可視化。此外,本研究基于一維t-SNE實現(xiàn)了scRNA-seq熱圖的可視化,以便同時對成千上萬個基因的表達模式進行可視化。
軟件下載網(wǎng)址:https://github.com/KlugerLab/FIt-SNE或
https://github.com/KlugerLab/t-SNE-Heatmaps
什么是t-SNE:即t-分布隨機鄰域嵌入算法,是目前一個非常流行的對高維度數(shù)據(jù)進行降維的算法, 具體說來就是把數(shù)據(jù)集中數(shù)據(jù)之間的高維歐式距離轉(zhuǎn)變了條件概率來表示數(shù)據(jù)之間的相似度,由Laurens van der Maaten和 Geoffrey Hinton于2008年提出(原文鏈接:http://jmlr.csail.mit.edu/papers/volume9/vandermaaten08a/vandermaaten08a.pdf),它可以有效的將高維度數(shù)據(jù)轉(zhuǎn)換成二維圖像,目前已成為單細胞RNA測序(scRNA-seq)數(shù)據(jù)可視化最常用的一種分析內(nèi)容。
scRNA-seq可以在單細胞水平進行高通量轉(zhuǎn)錄組分析,并越來越多地應(yīng)用于研究生理和疾病過程中細胞間的異質(zhì)性問題。scRNA-seq數(shù)據(jù)的可視化,對于分析已知細胞群體中不同標記基因的表達和識別新細胞類型方面發(fā)揮了關(guān)鍵作用。在過去十年中,使用t-SNE的數(shù)據(jù)可視化已經(jīng)成為scRNA-seq分析的基石。t-SNE用于將scRNA-seq數(shù)據(jù)集嵌入到低維空間中,使得單細胞數(shù)據(jù)的高維轉(zhuǎn)錄組空間與低維空間中保持一致。嵌入通常由感興趣基因的表達水平來決定并進行顏色標注,一次對一個基因進行分析。
目前t-SNE應(yīng)用于scRNA-seq數(shù)據(jù)分析存在的問題
由于scRNA-seq實驗技術(shù)的快速發(fā)展,需要分析的細胞數(shù)量呈指數(shù)增長。最近的研究檢測數(shù)據(jù)集已經(jīng)超過了100萬個細胞中的30000個基因的表達。對如此大量的細胞進行分析有助于對較小樣本中不明顯的罕見和中等大小的亞群進行表征。然而,用于構(gòu)建t-SNE嵌入的現(xiàn)有算法在計算上是成本很高的,通常需要在t-SNE之前對細胞進行向下采樣來降低計算量,但這又會導(dǎo)致錯過罕見的細胞群體。此外,去除可能表達給定標記基因的少數(shù)細胞可能會使中等大小的群體難以識別。
將t-SNE應(yīng)用于scRNA-seq數(shù)據(jù)的另一個困難是,由于每個數(shù)據(jù)集有大量的標記基因,將標記基因的表達水平疊加在單獨的二維(2D) t-SNE圖上很麻煩。實際上,只有少量這樣的圖可以在視覺上進行比較。
本研究對t-SNE的改進
本文對t-SNE在scRNA-seq數(shù)據(jù)可視化中的應(yīng)用提出了兩點改進。首先,研究者提出了基于快速傅立葉變換(FFT)加速插值的t-SNE (FIt-SNE),這是一種基于多項式插值的一維(1D)和二維t-SNE快速計算算法,并使用FFT進一步加速。本研究還展示了t-SNE熱圖,這是一種基于1D t-SNE的熱圖可視化方法,它同時可視化成百上千個基因的表達模式。
研究者使用FIt-SNE嵌入了一個由130萬個小鼠腦細胞組成的數(shù)據(jù)集,并從Allen Brain Atlas中成功識別出兩種已知的細胞類型,而這兩種細胞類型無法使用50000個細胞的隨機子集來識別(圖1),因為該子集沒有足夠的細胞同時表達Sncg和Slc18a8兩種標記。
圖1、通過標記基因識別大數(shù)據(jù)集中的亞群。a)使用FIt-SNE分析130萬小鼠腦細胞的完整數(shù)據(jù)集。b)向下采樣到隨機的50000個細胞結(jié)果。
使用t-SNE探索scRNA-seq數(shù)據(jù),每個圖都被不同標記基因的表達模式所著色。人們通常最感興趣的是哪些基因與哪些簇相關(guān)聯(lián),而不是簇的形狀或相對位置。已有研究表明,t-SNE保留了良好聚類數(shù)據(jù)的聚類結(jié)構(gòu),而與嵌入維度無關(guān),因此一維t-SNE(1D t-SNE)通常包含與二維t-SNE(2D t-SNE)相同的信息。因此本研究者開發(fā)了一種相關(guān)的方法,利用單個一維嵌入的緊湊性,以熱圖形式來探索成百上千個基因的表達模式。這種方法還可以發(fā)現(xiàn)新的標記基因,并根據(jù)它們沿著細胞的一維t-SNE平滑表達模式來組織基因。用戶可以根據(jù)熱圖中數(shù)據(jù)集的聚類結(jié)構(gòu),來放大并識別表征和區(qū)分嵌入不同區(qū)域的基因(圖2)。
圖2、t-SNE熱圖的示意圖。a, b)從表達矩陣開始,計算1D t-SNE,轉(zhuǎn)換為由每個基因的表達著色的水平軸。c)將1D t-SNE進行bin處理,通過每個bin中每個基因的平均表達來表示每個基因。d)生成vector的熱圖,從而將t-SNE中具有相似表達模式的基因分組在一起。e)利用已報告視網(wǎng)膜雙極細胞數(shù)據(jù)展示t-SNE熱圖效果圖。
關(guān)于天昊
天昊生物具有多年基因組、轉(zhuǎn)錄組和表觀組檢測與分析經(jīng)驗,現(xiàn)推出的10x單細胞轉(zhuǎn)錄組測序可為您提供專業(yè)便捷的科研服務(wù)及個性化的單細胞信息挖掘,期待成為您單細胞測序分析的優(yōu)質(zhì)服務(wù)提供商!
歡迎聯(lián)系我們具體咨詢!
郵箱:techsupport@geneskies.com
電話:400-065-6886