太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

生命學(xué)院張強(qiáng)鋒課題組開(kāi)發(fā)RNA結(jié)構(gòu)測(cè)序數(shù)據(jù)缺失信號(hào)恢復(fù)的人工智能方法

分享

清華新聞網(wǎng)11月22日電 RNA結(jié)構(gòu)是RNA發(fā)揮功能的基礎(chǔ)。傳統(tǒng)解析RNA結(jié)構(gòu)的方法包括X射線(xiàn)、核磁共振和冷凍電子顯微鏡。這些方法無(wú)法做到高通量，更不能解析出細(xì)胞內(nèi)高度動(dòng)態(tài)的RNA結(jié)構(gòu)。近年來(lái)，研究者們開(kāi)發(fā)出了許多細(xì)胞內(nèi)高通量探測(cè)RNA結(jié)構(gòu)的技術(shù)，極大推動(dòng)了RNA結(jié)構(gòu)和功能的研究。但是這些技術(shù)探測(cè)到的RNA結(jié)構(gòu)信號(hào)經(jīng)常包含大量的缺失值，影響了后續(xù)對(duì)RNA功能的深入研究。人工智能方法在科學(xué)、技術(shù)多個(gè)領(lǐng)域都取得了成功應(yīng)用，如果將其用于恢復(fù)由于實(shí)驗(yàn)和技術(shù)限制而缺失的RNA結(jié)構(gòu)信號(hào)，很有可能解決上述問(wèn)題。

11月16日，清華大學(xué)張強(qiáng)鋒課題組在《自然·機(jī)器智能》（Nature Machine Intelligence）期刊上發(fā)表了題為 “一種恢復(fù)從探測(cè)實(shí)驗(yàn)得到的全轉(zhuǎn)錄組RNA結(jié)構(gòu)圖譜中缺失信號(hào)的深度學(xué)習(xí)方法”（A deep learning method for recovering missing signals in transcriptome-wide RNA structure profiles from probing experiments）的研究文章。該工作受自動(dòng)駕駛領(lǐng)域中稀疏雷達(dá)信號(hào)恢復(fù)算法的啟發(fā)，將RNA序列與其對(duì)應(yīng)的RNA結(jié)構(gòu)信號(hào)相結(jié)合，并通過(guò)屏蔽部分已知RNA結(jié)構(gòu)信號(hào)來(lái)進(jìn)行自監(jiān)督式訓(xùn)練，建立了一種恢復(fù)實(shí)驗(yàn)缺失的RNA結(jié)構(gòu)信號(hào)的新方法——StructureImpute（圖1）。

圖1 StructureImpute模型

RNA結(jié)構(gòu)測(cè)序經(jīng)常會(huì)因覆蓋度不夠深而導(dǎo)致RNA結(jié)構(gòu)信號(hào)缺失，極端情況下甚至?xí)筊NA結(jié)構(gòu)信號(hào)非常稀疏。準(zhǔn)確地恢復(fù)出缺失的信號(hào)，將有利于RNA結(jié)構(gòu)及功能的分析。非常有意思的是，在自動(dòng)駕駛中也存在類(lèi)似的信號(hào)缺失問(wèn)題。雷達(dá)信號(hào)提供的周?chē)矬w的距離信息對(duì)于自動(dòng)駕駛非常重要。在自動(dòng)駕駛中通常采用多線(xiàn)雷達(dá)獲得物體的三維點(diǎn)云信號(hào)。由于多線(xiàn)雷達(dá)設(shè)備昂貴，自動(dòng)駕駛方案往往面臨雷達(dá)信號(hào)非常稀疏（大量缺失）的挑戰(zhàn)。大量的研究表明，可通過(guò)結(jié)合二維圖像和稀疏的雷達(dá)信號(hào)，設(shè)計(jì)人工智能算法，實(shí)現(xiàn)缺失的雷達(dá)信號(hào)的恢復(fù)補(bǔ)全。GuideNet就是這樣的一種雷達(dá)信號(hào)恢復(fù)補(bǔ)全方法。其使用配對(duì)的二維RGB圖像和稀疏的三維雷達(dá)信號(hào)作為輸入，采用自編碼器的深度網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)二維物體信息的RGB圖像引導(dǎo)缺失的三維物體雷達(dá)信號(hào)的恢復(fù)，從而實(shí)現(xiàn)三維雷達(dá)信號(hào)的補(bǔ)全。GuideNet在多個(gè)數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他方法，也曾長(zhǎng)期處在自動(dòng)駕駛KITTI數(shù)據(jù)集雷達(dá)信號(hào)補(bǔ)全任務(wù)的榜首。

受GuideNet的啟發(fā)，作者開(kāi)發(fā)了一種名為StructureImpute的深度學(xué)習(xí)模型，該模型將一維的RNA序列與含缺失值的RNA二級(jí)結(jié)構(gòu)信號(hào)相結(jié)合，通過(guò)構(gòu)建殘差神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型（圖1），采用隨機(jī)屏蔽部分已知RNA結(jié)構(gòu)信號(hào)來(lái)進(jìn)行自監(jiān)督式訓(xùn)練，從而得到具有恢復(fù)缺失RNA結(jié)構(gòu)信號(hào)能力的人工智能模型。結(jié)果表明，StructureImpute具有優(yōu)良的恢復(fù)效果（圖2A），并且其準(zhǔn)確性遠(yuǎn)遠(yuǎn)優(yōu)于僅基于RNA序列進(jìn)行恢復(fù)的方法。不同缺失值比例下也具有很好的表現(xiàn)（圖2B）。從18S核糖體RNA的結(jié)構(gòu)圖譜中可以看出，在不同缺失比例下堿基的結(jié)構(gòu)信號(hào)的預(yù)測(cè)值(藍(lán)色)和真實(shí)值(紅色)的分布很接近，說(shuō)明模型在一定缺失比例范圍內(nèi)具有較好的魯棒性（圖2C-D）。另外，與僅基于序列預(yù)測(cè)結(jié)構(gòu)信號(hào)圖譜的方法ShaKer相比，StructureImpute展現(xiàn)出了巨大的優(yōu)勢(shì)（圖2E）。作者還在多個(gè)生物學(xué)意義的RNA調(diào)控和功能位點(diǎn)上進(jìn)行了測(cè)試，發(fā)現(xiàn)StructureImpute可以可靠地重建具有這些位點(diǎn)的RNA結(jié)構(gòu)模式，包括蛋白結(jié)合位點(diǎn)、RNA修飾位點(diǎn)、翻譯起始和終止位點(diǎn)等。

圖2 StructureImpute的性能表現(xiàn)。A. 實(shí)例展示StructureImpute從缺失的區(qū)域（灰色）恢復(fù)出的結(jié)構(gòu)信號(hào)（綠色），實(shí)驗(yàn)測(cè)得的真實(shí)值為藍(lán)色。B. 不同比例的缺失值的恢復(fù)效果。C. StructureImpute與其他方法的效果比較。D-E. 不同缺失值比例下預(yù)測(cè)的18S核糖體RNA結(jié)構(gòu)圖譜與真實(shí)結(jié)構(gòu)圖譜的分布。

為了探究StructureImpute實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)的根源，作者通過(guò)反向傳播方法對(duì)神經(jīng)網(wǎng)絡(luò)中RNA序列分支和RNA結(jié)構(gòu)信號(hào)分支分別進(jìn)行了梯度分析。結(jié)果發(fā)現(xiàn)，缺失值區(qū)域本身的RNA序列信息對(duì)于預(yù)測(cè)其結(jié)構(gòu)信號(hào)值是最為重要，鄰近的序列隨著距離增大而減??；同樣，不管是結(jié)構(gòu)單鏈還是雙鏈區(qū)域，缺失值區(qū)域相鄰位置的RNA結(jié)構(gòu)信號(hào)也在恢復(fù)缺失值過(guò)程中提供了相對(duì)更加重要的信息。

作者還通過(guò)遷移學(xué)習(xí)的方法，將在全細(xì)胞數(shù)據(jù)集上訓(xùn)練的RNA結(jié)構(gòu)信號(hào)恢復(fù)模型遷移到不同的細(xì)胞組分，包括細(xì)胞質(zhì)、細(xì)胞核、染色質(zhì)，并通過(guò)在各自細(xì)胞環(huán)境上的數(shù)據(jù)集上進(jìn)行微調(diào)，最終發(fā)現(xiàn)遷移到各自組織上的模型的效果超越了全細(xì)胞數(shù)據(jù)集上的效果。另外，為探究StructureImpute在不同RNA結(jié)構(gòu)探測(cè)技術(shù)上的效果，作者不僅在icSHAPE技術(shù)上進(jìn)行了以上分析，還在DMS-Seq技術(shù)的數(shù)據(jù)集上進(jìn)行了模型的訓(xùn)練以及整套流程的分析，發(fā)現(xiàn)StructureImpute也能在DMS-Seq的數(shù)據(jù)上取得很好的恢復(fù)效果，說(shuō)明了StructureImpute具有很好的實(shí)用性，能應(yīng)用于不同的探測(cè)技術(shù)。

清華大學(xué)生命科學(xué)學(xué)院、結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命科學(xué)聯(lián)合中心的張強(qiáng)鋒副教授為該文章的通訊作者。清華大學(xué)生命學(xué)院博士畢業(yè)生龔警、博士后徐魁為該文章的共同第一作者，清華大學(xué)生命學(xué)院魯志副教授、博士生馬梓源為工作提供了寶貴的建議。該研究得到了清華大學(xué)蛋白質(zhì)研究技術(shù)中心的大力支持，同時(shí)還得到了國(guó)家自然科學(xué)基金委、科技部重點(diǎn)研發(fā)計(jì)劃、北京市結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命聯(lián)合中的資助。

論文鏈接：

https://www.nature.com/articles/s42256-021-00412-0

供稿：生命學(xué)院

編輯：李華山

審核：呂婷

2021年11月22日 09:31:04

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.