太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

生命學(xué)院張強(qiáng)鋒課題組開(kāi)發(fā)單細(xì)胞測(cè)序數(shù)據(jù)在線(xiàn)整合的人工智能算法

清華新聞網(wǎng)10月20日電 隨著單細(xì)胞測(cè)序技術(shù)的發(fā)展,單細(xì)胞科學(xué)研究不斷深入,規(guī)模越來(lái)越大,所研究的對(duì)象也越來(lái)越復(fù)雜。整合來(lái)源不同的單細(xì)胞測(cè)序數(shù)據(jù),消除批次效應(yīng),進(jìn)行全面挖掘和解析,是現(xiàn)在單細(xì)胞測(cè)序數(shù)據(jù)分析的一個(gè)基礎(chǔ)和核心環(huán)節(jié)。目前單細(xì)胞測(cè)序數(shù)據(jù)整合面臨以下幾方面難題:第一,不同實(shí)驗(yàn)樣本、實(shí)驗(yàn)平臺(tái)、建庫(kù)方法乃至操作等因素帶來(lái)的批次效應(yīng)會(huì)在單細(xì)胞測(cè)序數(shù)據(jù)中引入非生物學(xué)噪音,干擾細(xì)胞間生物學(xué)差異的提取和解析;第二,單細(xì)胞研究的規(guī)模不斷擴(kuò)大,百萬(wàn)細(xì)胞數(shù)目級(jí)別的數(shù)據(jù)對(duì)整合算法的效率提出了更高的要求;第三,單細(xì)胞測(cè)序樣本的類(lèi)型也在不斷增加,不同的單細(xì)胞測(cè)序數(shù)據(jù)集通常包括高度異質(zhì)的細(xì)胞亞群;第四,最重要的一點(diǎn),如何充分重復(fù)利用大量已有數(shù)據(jù)的舊知識(shí),對(duì)新數(shù)據(jù)進(jìn)行探索和解析。目前單細(xì)胞測(cè)序數(shù)據(jù)整合算法大多基于不同批次數(shù)據(jù)間的細(xì)胞相似性來(lái)矯正批次效應(yīng),存在過(guò)度整合(尤其是整合細(xì)胞異質(zhì)性差異較大的數(shù)據(jù)集)、可擴(kuò)展性差、無(wú)法直接將已有模型應(yīng)用到新數(shù)據(jù)集上等弊端。

10月17日,清華大學(xué)生命科學(xué)學(xué)院/結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心/清華-北大生命科學(xué)聯(lián)合中心張強(qiáng)鋒副教授課題組在《自然·通訊》(Nature Communications)期刊在線(xiàn)發(fā)表題為“通過(guò)將異構(gòu)數(shù)據(jù)集投影到統(tǒng)一的細(xì)胞嵌入空間中進(jìn)行單細(xì)胞測(cè)序數(shù)據(jù)在線(xiàn)整合”(Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space)的研究論文。在該研究中,他們開(kāi)發(fā)了基于變分自編碼器(variational autoencoder)深度學(xué)習(xí)框架的人工智能算法SCALEX,可以對(duì)單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行在線(xiàn)整合。SCALEX采用一個(gè)批次無(wú)關(guān)的編碼器和批次特異的解碼器組成的非對(duì)稱(chēng)自編碼器結(jié)構(gòu),進(jìn)行大量學(xué)習(xí)得到一個(gè)高泛化性的編碼器,該編碼器通過(guò)將高維單細(xì)胞測(cè)序數(shù)據(jù)投射到低維細(xì)胞嵌入空間(cell embedding space),在保留生物學(xué)差異的同時(shí)消除批次效應(yīng)。

SCALEX模型框架

SCALEX主要有以下四點(diǎn)主要特征:第一,相較于目前已有的單細(xì)胞測(cè)序數(shù)據(jù)整合方法,SCALEX在整合準(zhǔn)確性上具有明顯優(yōu)勢(shì);第二,SACLEX在百萬(wàn)單細(xì)胞數(shù)據(jù)量下仍保持很高的計(jì)算效率,適用于超高通量單細(xì)胞測(cè)序數(shù)據(jù)整合分析工作;第三,SCALEX有效避免了單細(xì)胞測(cè)序數(shù)據(jù)整合中的過(guò)校正情形,適用于異質(zhì)性高、復(fù)雜樣本的整合;第四,支持單細(xì)胞RNA-seq,單細(xì)胞ATAC-seq等多組學(xué)整合數(shù)據(jù)整合。這些特征使得SCALEX適用于構(gòu)建單細(xì)胞圖譜。開(kāi)發(fā)人員整合多項(xiàng)研究、多個(gè)組織的單細(xì)胞數(shù)據(jù)集構(gòu)建了小鼠、人以及COVID-19等三套大規(guī)模單細(xì)胞圖譜。

SCALEX有一個(gè)特殊的優(yōu)勢(shì),就是它的高泛化性的編碼器。這個(gè)編碼器可以通過(guò)單細(xì)胞測(cè)序數(shù)據(jù)投射,生成一個(gè)批次無(wú)關(guān)的統(tǒng)一低維細(xì)胞嵌入空間。對(duì)于新產(chǎn)生的數(shù)據(jù),SCALEX不需要重新訓(xùn)練編碼器,就可以將新數(shù)據(jù)投射到這個(gè)統(tǒng)一的低維細(xì)胞嵌入空間。這種整合方式被稱(chēng)為“在線(xiàn)整合”(online integration)。在線(xiàn)整合帶來(lái)一個(gè)巨大的好處,就是很容易將新數(shù)據(jù)與原來(lái)生成的單細(xì)胞圖譜等奠基性數(shù)據(jù)(需要由通過(guò)SCALEX數(shù)據(jù)整合生成)進(jìn)行比較分析,從而從奠基性數(shù)據(jù)得到生物學(xué)知識(shí)方面的啟發(fā)和指引,直接支持?jǐn)?shù)據(jù)注釋、規(guī)律驗(yàn)證等分析任務(wù)。另外,原有單細(xì)胞圖譜的細(xì)胞內(nèi)涵也在不斷添加新數(shù)據(jù)的過(guò)程中,得到豐富和擴(kuò)充,賦能新的生物學(xué)發(fā)現(xiàn)。

綜上所述,研究者們開(kāi)發(fā)了SCALEX單細(xì)胞測(cè)序數(shù)據(jù)人工智能分析工具,可以將不同批次細(xì)胞的基因表達(dá)譜映射到批次無(wú)關(guān)的統(tǒng)一低維細(xì)胞嵌入空間中,有效消除數(shù)據(jù)中的批次效應(yīng)并保留細(xì)胞間固有的生物學(xué)差異,實(shí)現(xiàn)不同批次數(shù)據(jù)的有效整合。SCALEX適用于圖譜級(jí)別的單細(xì)胞測(cè)序數(shù)據(jù)整合,將在整個(gè)生命科學(xué)和生物醫(yī)學(xué)領(lǐng)域正在進(jìn)行的超大規(guī)模單細(xì)胞圖譜等研究計(jì)劃中提供基礎(chǔ)支持。

清華大學(xué)生命科學(xué)學(xué)院張強(qiáng)鋒副教授為本文通訊作者,清華大學(xué)生命科學(xué)學(xué)院2015級(jí)博士生熊磊(已畢業(yè))和2018級(jí)博士生田康為該論文共同第一作者,2019級(jí)博士生李雨哲和2021級(jí)博士生寧微希對(duì)文章中的數(shù)據(jù)分析提供了重要幫助,百圖生科(BioMap)研究院主任、人工智能科學(xué)家、阿卜杜拉國(guó)王科技大學(xué)計(jì)算生物學(xué)家高欣教授參與合作研究。

本工作得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、北京市結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命科學(xué)聯(lián)合中心、清華大學(xué)計(jì)算平臺(tái)、上海期智研究院和阿卜杜拉國(guó)王科技大學(xué)研究管理辦公室的支持。

論文鏈接:

https://www.nature.com/articles/s41467-022-33758-z

供稿:生命學(xué)院

編輯:李華山

審核:呂婷

2022年10月20日 13:19:35

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.