單細胞轉錄組測序在單細胞層面對轉錄組進行測序與分析,現正被廣泛應用于分析細胞的異質性與多樣性。但是,過多的假零表達一直是困擾單細胞轉錄組數據分析的問題之一,該問題被稱為dropouts,它會扭曲基因的表達分布,并造成細胞類型分類的錯誤。而且,由于近年來單細胞測序技術與產業迅速發展,單次單細胞測序實驗的通量已從數千個細胞大幅提升到百萬級的細胞數量,而對于單個細胞的測序深度則較淺,這使得dropouts問題更為嚴重。
2020年7月10日,中山大學中山眼科中心謝志課題組開發了一個名為DISC的,基于半監督學習方式的深度學習網絡,用于解決dropouts問題。通過DISC可以推斷出被扭曲了表達與結構基因的真實情況。基于10個真實的單細胞轉錄組測序數據集,將DISC與其他7種高水準推斷方法進行比較,DISC始終優于其他方法。謝志教授是烈冰科技生信云平臺的重要合作伙伴,雙方建立了深入的合作學習關系。該研究以“DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning”為題,發表在國際知名期刊Genome Biology上。
DISC是基于半監督學習方式的深度學習算法,用于解決單細胞測序數據中的假零表達的dropouts問題。DISC包含一個自動編碼器、一個遞歸預測器、一個計算推算表達式特征的推算器和一個計算重構表達式特征的重構器,推算器用于學習正常基因的表達,重構器同時學習正常基因的表達和推算器分配的零表達基因的偽表達,預測器同時學習正常基因的表達和同一步驟的解碼器分配的零表達基因的偽表達,最后推斷出假零基因的真實表達。DISC還能通過自動編碼器將原始數據在保留原始特征的同時進行降維,使其可以把大型數據集壓縮到一個較低的維度,使得其在處理時依舊能保持較高的性能。
作者將DISC與其他7個已有的高水準推斷真實表達算法進行比較運行時間與內存占用進行了比較,發現DISC在處理大型及超大型數據集,相對于其他算法,運行時間更短,內存占用更少。
接下來為了系統評估DISC恢復丟失的基因表達結構的性能,作者使用了三種檢驗方法進行評估,并與FISH的結果進行比較。基因表達分布使用Gini系數的RMSE進行評估,基因之間的分布相關性用FF score評估,基因共表達的相關性用CMD評估。結果顯示,在MELANOMA與SSCORTEX兩個獨立數據集的驗證中,相比于其他算法,DISC都有很好的恢復丟失基因表達結構的性能。
下一步是驗證DISC恢復基因真實表達性能,但由于單細胞測序數據無法提供dropouts的真實數據,所以使用了來自三個不同單細胞測序平臺生成的數據合并后的數據作為參考。作者使用MAE評估恢復基因真實表達的準確性,DISC在所有的數據集中都有極好的表現,顯著地恢復了基因表達。對于基因相關性和細胞相關性,DISC與其他七種方法相比,在所有數據集上的其相關系數都是最高的。而在使用CMD評估基因共表達時,DISC、scImpute和VIPER與參考最為匹配,而其他方法都產生了大量的假共表達關系。這些數據表明,DISC準確恢復了dropout產生的基因表達丟失,改善了被扭曲的基因結構。
在修復dropout問題的基礎上,DISC能否提高細胞類型識別的準確度你?作者使用了10X Genomics,Drop-seq和SPLiT-seq三個不同單細胞測序平臺產生的數據集,以正確分配的細胞百分比(△ACC)來反映細胞類型分類的準確性。在三個不同的數據集中,DISC的性能都是最好的,且許多罕見細胞類型也能很好的恢復。表明DISC能有效提高細胞類型識別的準確性,而且在不同平臺不同的數據集中都有穩定的表現。
獲得了更好的基因結構是應該能轉化為更好的下游分析結果。為了驗證下游分析結果的提升,作者使用了三個指標進行評估。一是使用推算的scRNA-Seq與Bulk RNA-Seq數據之間的Spearman相關性評估兩組數據的相關性,二是scRNA-seq數據和Bulk RNA-seq數據識別的差異基因之間的相似性,三是推斷的擬時序結果與已知細胞分化順序之間的相似性。在三個指標評估中,DISC都有較好的表現,表明DISC能夠改善下游分析結果,提供更多的生物學意義信息。
最后,作者使用了真實的小鼠大腦超大型數據集BRAIN_1.3M來驗證DISC的性能,該數據集由多個大腦區域的細胞數據生成,數據量大且復雜。分析得到的結果與Allen腦圖譜中的已知Marker基因進行比較,發現DISC的結果在所有算法中更接近圖譜的細胞比例,且能更好的識別細分的細胞類型,與常用細胞類型識別工具Seurat的結果也更為一致。結果說明DISC能夠高效準確地處理超大型復雜單細胞數據集,并能精確分析出主要和稀有細胞群。
綜上所述,DISC提供了一個單細胞數據的通用解決方案,對于具有稀有表達的基因,以及超大型數據集都有很好的處理性能,最大限度地減少了信息丟失。DISC將成為快速發展的單細胞測序技術極大的助力。
原文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3
上海烈冰生物成立十年始終秉乘“創新、求實、前沿”的企業理念和“以客戶為根本”的服務宗旨,憑借高通量測序平臺及NovelBrain®云平臺生信分析的雙重優勢,致力于提供高品質、高效率的技術服務。截止目前,烈冰已和1000+家頂尖科研機構、醫院和醫藥企業合作了5000+項重要項目。
詳情咨詢當地銷售或者電話021-51827998
烈冰NovelBrain®單細胞云平臺
不僅助力算法開發,還可以自己輕松做數據分析~
國內最大的生物云平臺供應商,頂尖的云計算架構團隊,兩年精心研發,歷經數千項目檢驗。
0代碼分析過程、一鍵式結果報告、三維可視化的單細胞瀏覽器,助力每一位科研工作者擺脫生信代碼的煩惱,只需上傳數據,即可輕松分析數據,深入挖掘生物學意義。
60+項前沿單細胞分析工具,簡單便捷化拖拽操作、高度定制化分析流程,大幅度提升單細胞數據分析效率。
快來注冊-登錄,體驗一下吧!
網址:singlecell.novelbrain.com
利用NovelBrain單細胞云探尋新冠病毒受體ACE2在人體器官中的分布
單細胞云平臺數據分析教程:
熱點回顧: