太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

自動(dòng)化系汪小我團(tuán)隊(duì)提出知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的合成啟動(dòng)子AI設(shè)計(jì)方法

清華新聞網(wǎng)10月17日電 近日,清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)提出了一種將專(zhuān)家知識(shí)與大數(shù)據(jù)學(xué)習(xí)相融合的合成啟動(dòng)子人工智能輔助設(shè)計(jì)方法,發(fā)現(xiàn)了轉(zhuǎn)錄因子結(jié)合位點(diǎn)旁側(cè)序列在啟動(dòng)子優(yōu)化設(shè)計(jì)中的重要作用,為突破基因調(diào)控元件設(shè)計(jì)中面臨的高維度、小樣本的核心難題提供了新的思路。

近年來(lái),合成生物學(xué)作為一門(mén)新興交叉學(xué)科獲得了蓬勃發(fā)展,為破解人類(lèi)面臨的資源、健康、環(huán)境等重大挑戰(zhàn)提供全新解決途徑。合成生物學(xué)的核心理念是通過(guò)對(duì)DNA等生物大分子的逆向設(shè)計(jì)重構(gòu)獲得具有特定功能的人工生物系統(tǒng)。然而,這些生物分子編碼的組合排列空間十分龐大,序列與功能的映射關(guān)系復(fù)雜,對(duì)生物大分子序列進(jìn)行精準(zhǔn)設(shè)計(jì)極具挑戰(zhàn)。近期人工智能技術(shù)的突破引發(fā)了自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的革命性進(jìn)步,尤其是以ChatGPT等為代表的生成式智能模型的突破,彰顯出AI在提取復(fù)雜模式、生成復(fù)雜對(duì)象上的強(qiáng)大潛力?;谌斯ぶ悄芗夹g(shù)逆向設(shè)計(jì)啟動(dòng)子等具有特定功能的生物大分子序列,將為合成生物學(xué)的發(fā)展提供強(qiáng)大的設(shè)計(jì)工具和豐富的基礎(chǔ)元件。

啟動(dòng)子是決定基因在何時(shí)、何地以何種程度進(jìn)行轉(zhuǎn)錄表達(dá)的合成生物學(xué)基礎(chǔ)元件,設(shè)計(jì)具有特定功能的人工啟動(dòng)子是逆向構(gòu)造人工基因系統(tǒng)的基礎(chǔ)。啟動(dòng)子中連接不同轉(zhuǎn)錄因子結(jié)合位點(diǎn)的之間的旁側(cè)序列被證明對(duì)啟動(dòng)子功能有著重要影響,但這些旁側(cè)序列的特征難以被人為歸納總結(jié)為明確的知識(shí)和設(shè)計(jì)準(zhǔn)則。同時(shí),由于天然基因組中具有特定轉(zhuǎn)錄因子結(jié)合序列的啟動(dòng)子數(shù)量稀少,難以直接建立深度學(xué)習(xí)模型對(duì)這些啟動(dòng)子的序列的整體模式進(jìn)行提取。這些因素導(dǎo)致旁側(cè)序列在設(shè)計(jì)中被長(zhǎng)期忽視,缺乏有效的對(duì)啟動(dòng)子進(jìn)行整體優(yōu)化設(shè)計(jì)的方法。

知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的啟動(dòng)子輔助設(shè)計(jì)方法DeepSEED

針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)創(chuàng)新提出了一種知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的智能設(shè)計(jì)策略:首先基于人類(lèi)專(zhuān)家擅長(zhǎng)在小樣本中識(shí)別明確模式的特點(diǎn),利用專(zhuān)家知識(shí)定義與啟動(dòng)子功能相關(guān)的重要顯式模式作為“種子”序列;在此基礎(chǔ)上,基于深度學(xué)習(xí)模型擅長(zhǎng)在大型數(shù)據(jù)集中檢測(cè)隱含弱模式的強(qiáng)大能力,在海量啟動(dòng)子數(shù)據(jù)中學(xué)習(xí)旁側(cè)序列與種子序列的隱式匹配關(guān)系,進(jìn)而基于條件生成式模型獲得與特定種子序列相匹配的旁側(cè)序列,對(duì)序列整體進(jìn)行全局優(yōu)化。在實(shí)際應(yīng)用過(guò)程中,研究者可以任意指定已知生物調(diào)控模式序列作為“種子”序列,模型通過(guò)學(xué)習(xí)大數(shù)據(jù)中旁側(cè)序列的調(diào)控規(guī)律對(duì)“種子”的旁側(cè)序列進(jìn)行補(bǔ)全,從而實(shí)現(xiàn)啟動(dòng)子的按需優(yōu)化設(shè)計(jì)。研究團(tuán)隊(duì)成功將該方法應(yīng)用于大腸桿菌內(nèi)組成型啟動(dòng)子、IPTG誘導(dǎo)型啟動(dòng)子,以及哺乳動(dòng)物細(xì)胞內(nèi)Dox誘導(dǎo)型啟動(dòng)子的優(yōu)化設(shè)計(jì)。模型設(shè)計(jì)生成的合成啟動(dòng)子在表現(xiàn)出高度序列多樣性、與天然基因序列低相似性的同時(shí),保留了天然序列中k-mer頻率等關(guān)鍵統(tǒng)計(jì)特征,并優(yōu)化了DNA序列大小溝偏好、偏轉(zhuǎn)角等系統(tǒng)整體屬性,大幅提升了合成啟動(dòng)子的轉(zhuǎn)錄活性和誘導(dǎo)率等關(guān)鍵性能。該成果有望為合成生物學(xué)研究提供基礎(chǔ)性的設(shè)計(jì)工具和多樣化的基因調(diào)控元件。

相關(guān)研究成果以“使用DeepSEED進(jìn)行側(cè)翼序列深度改造實(shí)現(xiàn)高效啟動(dòng)子設(shè)計(jì)(Deep flanking sequence engineering for efficient promoter design using DeepSEED)為題,于10月9日發(fā)表于《自然·通訊》(Nature Communications)期刊。

清華大學(xué)自動(dòng)化系博士研究生張鵬程、博士研究生王昊晨與碩士研究生許涵文為該論文的共同第一作者,汪小我教授為該論文的通訊作者。清華大學(xué)的魏磊、劉莉揚(yáng)、胡志睿等也對(duì)本文作出了重要貢獻(xiàn)。該研究得到國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、清華大學(xué)國(guó)強(qiáng)研究院項(xiàng)目的資助。

論文鏈接:

https://www.nature.com/articles/s41467-023-41899-y

供稿:自動(dòng)化系

題圖設(shè)計(jì):曾儀

編輯:李華山

審核:郭玲

2023年10月17日 11:13:13

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.