太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

自動(dòng)化系汪小我團(tuán)隊(duì)合作提出自動(dòng)歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法

清華新聞網(wǎng)4月12日電 近年來(lái),大數(shù)據(jù)驅(qū)動(dòng)的深度神經(jīng)網(wǎng)絡(luò)模型已在多個(gè)領(lǐng)域取得了重要進(jìn)展。例如,在蛋白質(zhì)結(jié)構(gòu)和基因調(diào)控功能預(yù)測(cè)等方面,已經(jīng)能夠?qū)崿F(xiàn)高精度的預(yù)測(cè)。然而,這些模型通常是不透明的黑盒,難以理解。透明化神經(jīng)網(wǎng)絡(luò)黑盒可以幫助我們獲取模型從數(shù)據(jù)中學(xué)習(xí)到的知識(shí),從“只知其然”轉(zhuǎn)變?yōu)椤爸渌匀弧?,?duì)于促進(jìn)神經(jīng)網(wǎng)絡(luò)理論發(fā)展和增進(jìn)相關(guān)領(lǐng)域的認(rèn)知具有重要意義。在基因調(diào)控功能的研究中,基因調(diào)控序列是能夠調(diào)控基因表達(dá)的DNA序列,細(xì)胞中的各種蛋白質(zhì)調(diào)控因子通過(guò)讀取基因調(diào)控序列編碼信息并執(zhí)行相應(yīng)指令實(shí)現(xiàn)基因表達(dá)水平的精準(zhǔn)控制,從而決定了細(xì)胞的功能和狀態(tài)。利用深度神經(jīng)網(wǎng)絡(luò)破譯這些DNA編碼的語(yǔ)法規(guī)則能夠促進(jìn)對(duì)基因調(diào)控規(guī)律的理解,指導(dǎo)基因調(diào)控元件的定制化設(shè)計(jì)。

近日,清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)與美國(guó)斯坦福大學(xué)統(tǒng)計(jì)系王永雄團(tuán)隊(duì)合作提出自動(dòng)歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法。該方法針對(duì)廣泛應(yīng)用于基因調(diào)控序列研究的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,通過(guò)剖析神經(jīng)網(wǎng)絡(luò)中的多面神經(jīng)元機(jī)制(multifaceted neuron),開(kāi)發(fā)了神經(jīng)網(wǎng)絡(luò)解釋算法(NeuronMotif),實(shí)現(xiàn)了從神經(jīng)元中自動(dòng)歸納和提取轉(zhuǎn)錄因子結(jié)合位點(diǎn)等關(guān)鍵序列模式(Motif)及其組合、次序、間距等基因調(diào)控序列編碼規(guī)則。該方法能夠幫助研究者更加深入地理解基因調(diào)控編碼規(guī)律,同時(shí)為神經(jīng)網(wǎng)絡(luò)模型的解釋提供了新手段。

多面神經(jīng)元機(jī)制和NeuronMotif歸納基因調(diào)控序列編碼模式

該研究發(fā)現(xiàn),CNN解釋困難的一個(gè)主要原因在于深層神經(jīng)元大多都是“多面神經(jīng)元”(multifaceted neuron)。這種神經(jīng)元能夠同時(shí)被多種不同序列模式激活,直接對(duì)這些混合模式進(jìn)行可視化往往只能獲得難以被人理解的結(jié)果。通過(guò)深入分析,該研究發(fā)現(xiàn)CNN中的最大池化結(jié)構(gòu)是導(dǎo)致深層神經(jīng)元識(shí)別多種序列模式的關(guān)鍵原因。具有不同模式的序列特征在被輸入到神經(jīng)網(wǎng)絡(luò)以后,會(huì)逐層計(jì)算得到每一層網(wǎng)絡(luò)對(duì)應(yīng)的特征圖(feature map),這些特征圖在通過(guò)最大池化層后會(huì)丟失單堿基精度空間分辨率,導(dǎo)致輸出的特征圖變得高度相似,難以對(duì)這些混合模式進(jìn)行解耦。

針對(duì)多面神經(jīng)元問(wèn)題及其形成機(jī)制,研究團(tuán)隊(duì)提出了Neuron Motif方法,該方法首先基于蒙特卡洛采樣和遺傳算法得到大量能充分激活神經(jīng)元的序列集合,然后計(jì)算這些序列在神經(jīng)網(wǎng)絡(luò)各層的特征圖,并通過(guò)反向逐層聚類(lèi)的方式分離不同序列模式所對(duì)應(yīng)的特征圖,將具有不同模式的序列劃分到不同的子集中,最終通過(guò)對(duì)每個(gè)子集的可視化獲得易于理解的序列模式特征。在此基礎(chǔ)上,該方法構(gòu)建了基于結(jié)構(gòu)化語(yǔ)法樹(shù)的自動(dòng)化知識(shí)提取方法,從數(shù)據(jù)中自動(dòng)歸納轉(zhuǎn)錄因子結(jié)合位點(diǎn)序列模式、組合模式、間距、次序等調(diào)控序列語(yǔ)法規(guī)則。

NeuronMotif歸納提取的調(diào)控序列語(yǔ)法規(guī)則能夠得到文獻(xiàn)和多種生物組學(xué)數(shù)據(jù)的支撐和驗(yàn)證。通過(guò)對(duì)人類(lèi)基因組數(shù)據(jù)的學(xué)習(xí),NeuronMotif發(fā)現(xiàn)了數(shù)百種序列模式,與JASPAR數(shù)據(jù)庫(kù)中的已知轉(zhuǎn)錄因子motif序列模式高度匹配;通過(guò)NeuronMotif獲取的深層神經(jīng)元語(yǔ)法規(guī)則與多種細(xì)胞/組織中的ATAC-seqfootprinting模式高度匹配,并得到了基因表達(dá)數(shù)據(jù)(RNA-seq)的支持;序列模式的組合和排布等規(guī)律在跨物種基因組序列上具有顯著的序列保守性。

綜上所述,NeuronMotif為我們提供了一種解讀深度神經(jīng)網(wǎng)絡(luò)模型中深層神經(jīng)元識(shí)別模式的新方法。此外,NeuronMotif的解釋結(jié)果還可用于人工神經(jīng)網(wǎng)絡(luò)的診斷和改進(jìn),幫助降低神經(jīng)網(wǎng)絡(luò)調(diào)參的困難。借助該方法,我們可以通過(guò)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和解釋?zhuān)瑥臄?shù)據(jù)中獲取可供人類(lèi)專(zhuān)家理解的知識(shí),幫助我們更加深入地理解胚胎發(fā)育、疾病發(fā)生等生物過(guò)程中的基因調(diào)控規(guī)律,并為基因治療等應(yīng)用中定制化逆向構(gòu)造人工基因調(diào)控序列提供支撐。

研究成果以“NeuronMotif: 通過(guò)深度神經(jīng)網(wǎng)絡(luò)的逐層解耦破譯基因順式調(diào)控編碼”(NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks)為題發(fā)表在《美國(guó)科學(xué)院院刊PNAS)上。

清華大學(xué)自動(dòng)化系博士后魏征為本文的第一作者,清華大學(xué)自動(dòng)化系汪小我教授和美國(guó)斯坦福大學(xué)統(tǒng)計(jì)系王永雄教授為本文的共同通訊作者。清華大學(xué)李衍達(dá)教授、張學(xué)工教授、江瑞教授、魏磊助理研究員、花奎博士,斯坦福大學(xué)博士后馬士寧也對(duì)本文作出了重要貢獻(xiàn)。該研究得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、清華大學(xué)國(guó)強(qiáng)研究院、北京智源人工智能研究院等的資助。

論文鏈接:

https://www.pnas.org/doi/10.1073/pnas.2216698120

供稿:自動(dòng)化系

題圖設(shè)計(jì):任帥

編輯:李華山

審核:郭玲

2023年04月12日 10:09:48

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.