清華新聞網(wǎng)2月2日電 近日,清華大學(xué)交叉信息研究院的曾堅(jiān)陽(yáng)研究組成功開(kāi)發(fā)了能在全基因組上預(yù)測(cè)RNA聚合酶暫停位點(diǎn)的深度神經(jīng)網(wǎng)絡(luò)模型,該研究為Pol II暫?,F(xiàn)象在轉(zhuǎn)錄過(guò)程中的調(diào)控機(jī)制提供了一個(gè)全新的分析框架,也為在缺乏測(cè)序數(shù)據(jù)的細(xì)胞系上研究Pol II暫停提供了很好的預(yù)測(cè)參考模型。
真核生物的轉(zhuǎn)錄是一個(gè)高度復(fù)雜且被準(zhǔn)確調(diào)控的動(dòng)態(tài)過(guò)程,RNA聚合酶II(RNA polymerase II, Pol II)作為轉(zhuǎn)錄過(guò)程(特別是轉(zhuǎn)錄延伸階段)的核心分子成員,對(duì)遺傳信息的傳遞起著關(guān)鍵作用。研究表明,在轉(zhuǎn)錄延伸過(guò)程中,普遍存在Pol II暫停(Pol II pausing)現(xiàn)象,其參與下游基因的表達(dá)調(diào)控、影響基因可變剪切的發(fā)生,與細(xì)胞分化、發(fā)育等生命活動(dòng)息息相關(guān)。目前,Pol II暫停相關(guān)的轉(zhuǎn)錄調(diào)控機(jī)制研究主要依賴(lài)于NET-seq(Native elongating transcript sequencing)等高通量測(cè)序技術(shù),成本高、需要一定實(shí)驗(yàn)周期。因此,如何實(shí)現(xiàn)在全基因組水平上快速、高效的分析Pol II暫停的偏好位點(diǎn)及其序列特征,以及其與相關(guān)轉(zhuǎn)錄因子間的關(guān)系,是轉(zhuǎn)錄調(diào)控領(lǐng)域亟待解決的技術(shù)難點(diǎn)。為了解決這一問(wèn)題,來(lái)自清華大學(xué)的曾堅(jiān)陽(yáng)、趙誕團(tuán)隊(duì)采用基于注意力機(jī)制(attention mechanism)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)全基因組上的Pol II暫停位點(diǎn)進(jìn)行預(yù)測(cè)。在NET-seq數(shù)據(jù)集上,其預(yù)測(cè)準(zhǔn)確率均顯著優(yōu)于現(xiàn)有機(jī)器學(xué)習(xí)模型。此外,研究組通過(guò)分析模型的注意力機(jī)制以及分析模型在基因組上特定位點(diǎn)的預(yù)測(cè)值,進(jìn)一步探索了Pol II暫停的生物學(xué)特征以及和其他轉(zhuǎn)錄調(diào)控機(jī)制的關(guān)系,包括:發(fā)現(xiàn)了決定Pol II暫停的序列特征以及其與暫停位點(diǎn)的關(guān)系;通過(guò)分析不同可變剪切方式位點(diǎn)上Pol II的暫停傾向,提供了Pol II影響可變剪切的可能生物學(xué)機(jī)制;全面分析了Pol II與轉(zhuǎn)錄因子、組蛋白修飾、DNA甲基化發(fā)生的相關(guān)性;發(fā)現(xiàn)模型能夠很好的彌補(bǔ)測(cè)序數(shù)據(jù)深度不足帶來(lái)的缺陷。

Pol II暫停分析預(yù)測(cè)框架圖
相關(guān)成果《基于機(jī)器學(xué)習(xí)框架的轉(zhuǎn)錄延伸建?!罚ˋ machine learning based framework for modeling transcription elongation)于2月1日在《美國(guó)國(guó)家科學(xué)院院刊》(Proceedings of the National Academy of Sciences of the United States of America )上發(fā)表。
該論文通訊作者為清華大學(xué)交叉信息研究院的曾堅(jiān)陽(yáng)副教授和趙誕助理研究員,第一作者為清華大學(xué)交叉信息研究院2016級(jí)博士研究生馮沛源和2016級(jí)碩士研究生肖安。此項(xiàng)研究工作獲得國(guó)家自然科學(xué)基金、南京圖靈人工智能研究院和中關(guān)村海華前沿信息技術(shù)研究院支持。
論文鏈接:
https://www.pnas.org/content/118/6/e2007450118
供稿:交叉信息研究院
編輯:陳曉艷
審核:呂婷