清華新聞網(wǎng)11月22日電 RNA結(jié)構(gòu)是RNA發(fā)揮功能的基礎(chǔ)。傳統(tǒng)解析RNA結(jié)構(gòu)的方法包括X射線(xiàn)、核磁共振和冷凍電子顯微鏡。這些方法無(wú)法做到高通量,更不能解析出細(xì)胞內(nèi)高度動(dòng)態(tài)的RNA結(jié)構(gòu)。近年來(lái),研究者們開(kāi)發(fā)出了許多細(xì)胞內(nèi)高通量探測(cè)RNA結(jié)構(gòu)的技術(shù),極大推動(dòng)了RNA結(jié)構(gòu)和功能的研究。但是這些技術(shù)探測(cè)到的RNA結(jié)構(gòu)信號(hào)經(jīng)常包含大量的缺失值,影響了后續(xù)對(duì)RNA功能的深入研究。人工智能方法在科學(xué)、技術(shù)多個(gè)領(lǐng)域都取得了成功應(yīng)用,如果將其用于恢復(fù)由于實(shí)驗(yàn)和技術(shù)限制而缺失的RNA結(jié)構(gòu)信號(hào),很有可能解決上述問(wèn)題。
11月16日,清華大學(xué)張強(qiáng)鋒課題組在《自然·機(jī)器智能》(Nature Machine Intelligence)期刊上發(fā)表了題為 “一種恢復(fù)從探測(cè)實(shí)驗(yàn)得到的全轉(zhuǎn)錄組RNA結(jié)構(gòu)圖譜中缺失信號(hào)的深度學(xué)習(xí)方法”(A deep learning method for recovering missing signals in transcriptome-wide RNA structure profiles from probing experiments)的研究文章。該工作受自動(dòng)駕駛領(lǐng)域中稀疏雷達(dá)信號(hào)恢復(fù)算法的啟發(fā),將RNA序列與其對(duì)應(yīng)的RNA結(jié)構(gòu)信號(hào)相結(jié)合,并通過(guò)屏蔽部分已知RNA結(jié)構(gòu)信號(hào)來(lái)進(jìn)行自監(jiān)督式訓(xùn)練,建立了一種恢復(fù)實(shí)驗(yàn)缺失的RNA結(jié)構(gòu)信號(hào)的新方法——StructureImpute(圖1)。

圖1 StructureImpute模型
RNA結(jié)構(gòu)測(cè)序經(jīng)常會(huì)因覆蓋度不夠深而導(dǎo)致RNA結(jié)構(gòu)信號(hào)缺失,極端情況下甚至?xí)筊NA結(jié)構(gòu)信號(hào)非常稀疏。準(zhǔn)確地恢復(fù)出缺失的信號(hào),將有利于RNA結(jié)構(gòu)及功能的分析。非常有意思的是,在自動(dòng)駕駛中也存在類(lèi)似的信號(hào)缺失問(wèn)題。雷達(dá)信號(hào)提供的周?chē)矬w的距離信息對(duì)于自動(dòng)駕駛非常重要。在自動(dòng)駕駛中通常采用多線(xiàn)雷達(dá)獲得物體的三維點(diǎn)云信號(hào)。由于多線(xiàn)雷達(dá)設(shè)備昂貴,自動(dòng)駕駛方案往往面臨雷達(dá)信號(hào)非常稀疏(大量缺失)的挑戰(zhàn)。大量的研究表明,可通過(guò)結(jié)合二維圖像和稀疏的雷達(dá)信號(hào),設(shè)計(jì)人工智能算法,實(shí)現(xiàn)缺失的雷達(dá)信號(hào)的恢復(fù)補(bǔ)全。GuideNet就是這樣的一種雷達(dá)信號(hào)恢復(fù)補(bǔ)全方法。其使用配對(duì)的二維RGB圖像和稀疏的三維雷達(dá)信號(hào)作為輸入,采用自編碼器的深度網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)二維物體信息的RGB圖像引導(dǎo)缺失的三維物體雷達(dá)信號(hào)的恢復(fù),從而實(shí)現(xiàn)三維雷達(dá)信號(hào)的補(bǔ)全。GuideNet在多個(gè)數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他方法,也曾長(zhǎng)期處在自動(dòng)駕駛KITTI數(shù)據(jù)集雷達(dá)信號(hào)補(bǔ)全任務(wù)的榜首。
受GuideNet的啟發(fā),作者開(kāi)發(fā)了一種名為StructureImpute的深度學(xué)習(xí)模型,該模型將一維的RNA序列與含缺失值的RNA二級(jí)結(jié)構(gòu)信號(hào)相結(jié)合,通過(guò)構(gòu)建殘差神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(圖1),采用隨機(jī)屏蔽部分已知RNA結(jié)構(gòu)信號(hào)來(lái)進(jìn)行自監(jiān)督式訓(xùn)練,從而得到具有恢復(fù)缺失RNA結(jié)構(gòu)信號(hào)能力的人工智能模型。結(jié)果表明,StructureImpute具有優(yōu)良的恢復(fù)效果(圖2A),并且其準(zhǔn)確性遠(yuǎn)遠(yuǎn)優(yōu)于僅基于RNA序列進(jìn)行恢復(fù)的方法。不同缺失值比例下也具有很好的表現(xiàn)(圖2B)。從18S核糖體RNA的結(jié)構(gòu)圖譜中可以看出,在不同缺失比例下堿基的結(jié)構(gòu)信號(hào)的預(yù)測(cè)值(藍(lán)色)和真實(shí)值(紅色)的分布很接近,說(shuō)明模型在一定缺失比例范圍內(nèi)具有較好的魯棒性(圖2C-D)。另外,與僅基于序列預(yù)測(cè)結(jié)構(gòu)信號(hào)圖譜的方法ShaKer相比,StructureImpute展現(xiàn)出了巨大的優(yōu)勢(shì)(圖2E)。作者還在多個(gè)生物學(xué)意義的RNA調(diào)控和功能位點(diǎn)上進(jìn)行了測(cè)試,發(fā)現(xiàn)StructureImpute可以可靠地重建具有這些位點(diǎn)的RNA結(jié)構(gòu)模式,包括蛋白結(jié)合位點(diǎn)、RNA修飾位點(diǎn)、翻譯起始和終止位點(diǎn)等。

圖2 StructureImpute的性能表現(xiàn)。A. 實(shí)例展示StructureImpute從缺失的區(qū)域(灰色)恢復(fù)出的結(jié)構(gòu)信號(hào)(綠色),實(shí)驗(yàn)測(cè)得的真實(shí)值為藍(lán)色。B. 不同比例的缺失值的恢復(fù)效果。C. StructureImpute與其他方法的效果比較。D-E. 不同缺失值比例下預(yù)測(cè)的18S核糖體RNA結(jié)構(gòu)圖譜與真實(shí)結(jié)構(gòu)圖譜的分布。
為了探究StructureImpute實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)的根源,作者通過(guò)反向傳播方法對(duì)神經(jīng)網(wǎng)絡(luò)中RNA序列分支和RNA結(jié)構(gòu)信號(hào)分支分別進(jìn)行了梯度分析。結(jié)果發(fā)現(xiàn),缺失值區(qū)域本身的RNA序列信息對(duì)于預(yù)測(cè)其結(jié)構(gòu)信號(hào)值是最為重要,鄰近的序列隨著距離增大而減??;同樣,不管是結(jié)構(gòu)單鏈還是雙鏈區(qū)域,缺失值區(qū)域相鄰位置的RNA結(jié)構(gòu)信號(hào)也在恢復(fù)缺失值過(guò)程中提供了相對(duì)更加重要的信息。
作者還通過(guò)遷移學(xué)習(xí)的方法,將在全細(xì)胞數(shù)據(jù)集上訓(xùn)練的RNA結(jié)構(gòu)信號(hào)恢復(fù)模型遷移到不同的細(xì)胞組分,包括細(xì)胞質(zhì)、細(xì)胞核、染色質(zhì),并通過(guò)在各自細(xì)胞環(huán)境上的數(shù)據(jù)集上進(jìn)行微調(diào),最終發(fā)現(xiàn)遷移到各自組織上的模型的效果超越了全細(xì)胞數(shù)據(jù)集上的效果。另外,為探究StructureImpute在不同RNA結(jié)構(gòu)探測(cè)技術(shù)上的效果,作者不僅在icSHAPE技術(shù)上進(jìn)行了以上分析,還在DMS-Seq技術(shù)的數(shù)據(jù)集上進(jìn)行了模型的訓(xùn)練以及整套流程的分析,發(fā)現(xiàn)StructureImpute也能在DMS-Seq的數(shù)據(jù)上取得很好的恢復(fù)效果,說(shuō)明了StructureImpute具有很好的實(shí)用性,能應(yīng)用于不同的探測(cè)技術(shù)。
清華大學(xué)生命科學(xué)學(xué)院、結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命科學(xué)聯(lián)合中心的張強(qiáng)鋒副教授為該文章的通訊作者。清華大學(xué)生命學(xué)院博士畢業(yè)生龔警、博士后徐魁為該文章的共同第一作者,清華大學(xué)生命學(xué)院魯志副教授、博士生馬梓源為工作提供了寶貴的建議。該研究得到了清華大學(xué)蛋白質(zhì)研究技術(shù)中心的大力支持,同時(shí)還得到了國(guó)家自然科學(xué)基金委、科技部重點(diǎn)研發(fā)計(jì)劃、北京市結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命聯(lián)合中的資助。
論文鏈接:
https://www.nature.com/articles/s42256-021-00412-0
供稿:生命學(xué)院
編輯:李華山
審核:呂婷