清華新聞網(wǎng)9月4日電 在當(dāng)今生物醫(yī)學(xué)研究的前沿,單細(xì)胞RNA測(cè)序(scRNA-seq)技術(shù)正引領(lǐng)著一場(chǎng)革命。這項(xiàng)技術(shù)能夠以前所未有的精度觀(guān)測(cè)單個(gè)細(xì)胞內(nèi)的基因活動(dòng),幫助我們更好地理解生命系統(tǒng)、疾病原因和生物發(fā)育過(guò)程。然而,隨著單細(xì)胞技術(shù)的快速發(fā)展,生物學(xué)家和數(shù)據(jù)科學(xué)家們面臨著由海量高維基因數(shù)據(jù)帶來(lái)的巨大挑戰(zhàn)。
現(xiàn)有的單細(xì)胞數(shù)據(jù)分析方法,包括深度學(xué)習(xí)算法,往往難以準(zhǔn)確捕捉數(shù)據(jù)中的非線(xiàn)性結(jié)構(gòu)和細(xì)微變化,導(dǎo)致重要的生物學(xué)信息可能被忽視或誤解。特別是在發(fā)現(xiàn)罕見(jiàn)的細(xì)胞類(lèi)型、了解細(xì)胞如何變化以及繪制完整的“細(xì)胞地圖”等重要任務(wù)中,現(xiàn)有方法的局限性日益凸顯。
針對(duì)上述問(wèn)題,清華大學(xué)丘成桐數(shù)學(xué)科學(xué)中心丘成桐團(tuán)隊(duì)與新加坡國(guó)立大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系姚志剛團(tuán)隊(duì)合作,提出一種名為scAMF(Single-Cell Analysis via Manifold Fitting)的創(chuàng)新算法(如圖所示)。該算法通過(guò)流形擬合進(jìn)行單細(xì)胞分析,旨在從根本上改變分析和理解單細(xì)胞數(shù)據(jù)的方式。scAMF把復(fù)雜的單細(xì)胞數(shù)據(jù)看作是由兩部分組成的。一部分是有意義的信息結(jié)構(gòu)(低維流形結(jié)構(gòu)),另一部分是無(wú)用的干擾信息(環(huán)境噪聲)。通過(guò)流形擬合,scAMF能夠有效地提取出潛在的流形結(jié)構(gòu),保留關(guān)鍵的生物學(xué)信息。該方法首先對(duì)原始數(shù)據(jù)進(jìn)行多種轉(zhuǎn)換,然后利用共享最近鄰度量和局部幾何結(jié)構(gòu),自適應(yīng)地?cái)M合空間結(jié)構(gòu)不同的流形,從而有效處理細(xì)胞類(lèi)型間的復(fù)雜非線(xiàn)性關(guān)系。經(jīng)過(guò)流形擬合之后,scAMF只需使用簡(jiǎn)單的聚類(lèi)方法就可以獲得高精度聚類(lèi)結(jié)果。在處理復(fù)雜單細(xì)胞數(shù)據(jù)時(shí),scAMF表現(xiàn)優(yōu)異,在細(xì)胞識(shí)別的準(zhǔn)確性、細(xì)胞可視化等方面均優(yōu)于現(xiàn)有的單細(xì)胞分析方法,包括基于圖的算法以及深度學(xué)習(xí)算法。

scAMF流程的示意圖概述。該過(guò)程始于使用三種方法進(jìn)行數(shù)據(jù)轉(zhuǎn)換,隨后進(jìn)行流形擬合以去除數(shù)據(jù)噪聲同時(shí)保留其結(jié)構(gòu)。擬合后的數(shù)據(jù)隨后經(jīng)過(guò)多種聚類(lèi)方法,自動(dòng)地選擇最佳聚類(lèi)結(jié)果,最終產(chǎn)生擬合數(shù)據(jù)和細(xì)胞類(lèi)別作為最終輸出
研究團(tuán)隊(duì)已經(jīng)在25個(gè)復(fù)雜的單細(xì)胞數(shù)據(jù)集上測(cè)試了scAMF方法。這些數(shù)據(jù)集包括人腦細(xì)胞的詳細(xì)信息、胚胎如何隨時(shí)間發(fā)育的數(shù)據(jù)以及研究癌癥多樣性的數(shù)據(jù)等。研究表明,scAMF不僅能夠更準(zhǔn)確地識(shí)別已知細(xì)胞類(lèi)型,還能夠提供容易理解且有明確生物學(xué)意義的可視化結(jié)果。這些發(fā)現(xiàn)為理解復(fù)雜生命系統(tǒng)的組成和功能提供了新的見(jiàn)解。
9月3日,相關(guān)研究成果以“通過(guò)流形擬合進(jìn)行單細(xì)胞分析:一種用于RNA聚類(lèi)及其展望的框架”(Single-Cell Analysis via Manifold Fitting: A Framework for RNA Clustering and Beyond)為題,發(fā)表于《美國(guó)國(guó)家科學(xué)院院刊》(Proceedings of the National Academy of Sciences of the United States of America,PNAS)。
新加坡國(guó)立大學(xué)教授姚志剛為該論文的第一作者,清華大學(xué)丘成桐數(shù)學(xué)科學(xué)中心教授丘成桐與姚志剛為論文通訊作者。論文所有作者貢獻(xiàn)相當(dāng)。研究得到新加坡教育部研究基金和清華大學(xué)丘成桐數(shù)學(xué)科學(xué)中心的支持。
論文鏈接:
www.pnas.org/doi/10.1073/pnas.2400002121
供稿:數(shù)學(xué)科學(xué)中心
題圖設(shè)計(jì):任帥
編輯:李華山
審核:郭玲