清華新聞網(wǎng)9月7日電 由清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)蘭艷艷教授團(tuán)隊(duì)研發(fā)的系統(tǒng)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)解決方案AIRFold,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽CAMEO上連續(xù)四周奪得全球第一。

AIRFold在最近一個(gè)月(7.23-8.20)的評(píng)估中連續(xù)四周奪得全球第一名成績(jī),并在系統(tǒng)響應(yīng)時(shí)間上遠(yuǎn)遠(yuǎn)領(lǐng)先其他團(tuán)隊(duì)
蛋白質(zhì)結(jié)構(gòu)對(duì)于理解蛋白質(zhì)功能以及諸多重要的生命活動(dòng)有重要意義,它的結(jié)構(gòu)也在一定程度上約束了蛋白質(zhì)序列的突變。所幸蛋白質(zhì)的同源序列中包含了豐富的結(jié)構(gòu)信息,這為數(shù)據(jù)驅(qū)動(dòng)的解決方案提供了可能性。目前半?yún)?shù)化的深度學(xué)習(xí)解決方案,如AlphaFold2等充分利用數(shù)據(jù)驅(qū)動(dòng)的端到端深度學(xué)習(xí)模型,在結(jié)構(gòu)預(yù)測(cè)上已取得與冷凍電子顯微鏡等實(shí)驗(yàn)技術(shù)相當(dāng)?shù)木取5?,這些模型極度依賴(lài)輸入的同源序列信息,在實(shí)際的很多場(chǎng)景中還有不小的局限性:比如在缺少同源序列的蛋白質(zhì)上預(yù)測(cè)結(jié)果不理想,以及對(duì)同源輸入的冗余噪聲較為敏感等。
AIRFold在A(yíng)lphaFold2的基礎(chǔ)上,致力于為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這一生命科學(xué)領(lǐng)域的關(guān)鍵性問(wèn)題提供可拓展的系統(tǒng)化解決方案。AIRFold獨(dú)有的同源挖掘(Homology Miner)模塊,聚焦于共進(jìn)化信息的挖掘和提取,對(duì)蛋白質(zhì)同源序列(MSA)中的協(xié)同進(jìn)化信息進(jìn)行智能化、自動(dòng)化地提取、分析和處理。例如,Homology Miner中引入了同源蛋白的語(yǔ)義檢索和生成兩個(gè)模塊:檢索模塊利用結(jié)構(gòu)和序列的共同表征學(xué)習(xí),通過(guò)稠密檢索從現(xiàn)有數(shù)據(jù)庫(kù)中補(bǔ)充和完善同源蛋白信息;生成模塊則基于深度生成模型,對(duì)蛋白質(zhì)的接觸矩陣(Contact Matrix)以及多序列比對(duì)數(shù)據(jù)進(jìn)行生成式建模,從而通過(guò)生成同源蛋白序列對(duì)共進(jìn)化信息進(jìn)行補(bǔ)充。
此外,Homology Miner的同源表征信息優(yōu)化模塊,還能從信息論的角度對(duì)同源序列數(shù)據(jù)中的共進(jìn)化信息進(jìn)行量化,多角度地利用共進(jìn)化信息量作為優(yōu)化的目標(biāo),如序列級(jí)的信息最大化,基于位置的信息約束等。結(jié)果顯示,經(jīng)過(guò)優(yōu)化校正的同源蛋白表征信息在結(jié)構(gòu)預(yù)測(cè)中表現(xiàn)更加穩(wěn)定、有效。
Homology Miner模塊通過(guò)對(duì)共進(jìn)化信息的有效建模,為復(fù)雜同源序列分布的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了全新的解決方案,并取得了不俗的表現(xiàn):在最近一周(8.14-8.20)“hard”分類(lèi)的序列上,AIRFold是唯一lDDT均分高于80分的模型;在最近一個(gè)月(7.23-8.20)以及三個(gè)月(5.21-8.20)的“hard”序列上,AIRFold均表現(xiàn)優(yōu)異,并遙遙領(lǐng)先于第二名。

團(tuán)隊(duì)的模型在“hard”分類(lèi)上表現(xiàn)優(yōu)異,從左到右分別是最近1周、1個(gè)月和3個(gè)月在“hard”分類(lèi)序列上的表現(xiàn)
在諸多CAMEO比賽的蛋白質(zhì)序列中,7TVI是一個(gè)重要但較難預(yù)測(cè)結(jié)構(gòu)的蛋白,該蛋白展示的是Cas13bt3-crRNA復(fù)合物的結(jié)構(gòu)。其中Cas13是一類(lèi)重要的RNA引導(dǎo)的RNA編輯工具,有望成為下一代更安全更高效的基因治療手段。與AlphaFold2相比,AIRFold預(yù)測(cè)的結(jié)構(gòu)在Helical-1和Helical-2兩個(gè)主要識(shí)別crRNA(下圖中粉色部分)的結(jié)構(gòu)域上都顯著優(yōu)于A(yíng)lphaFold2的結(jié)果;AIRFold預(yù)測(cè)的結(jié)構(gòu)形成了正確的crRNA結(jié)合位點(diǎn),而AlphaFold2預(yù)測(cè)的結(jié)構(gòu)產(chǎn)生了較大的偏離不能正確結(jié)合crRNA。AIRFold實(shí)現(xiàn)了對(duì)這類(lèi)高難度蛋白的高精度結(jié)構(gòu)預(yù)測(cè),使得我們能夠高效便捷地研究大量來(lái)自不同物種或宏基因組測(cè)序結(jié)果的Cas13同源蛋白。高精度的結(jié)構(gòu)可以啟發(fā)研究人員設(shè)計(jì)出更小、更準(zhǔn)、更高效的RNA編輯工具。因此,AIRFold 未來(lái)將極大地加速CRISPR/Cas相關(guān)分子工具的挖掘與設(shè)計(jì),助力下一代基因編輯療法的研發(fā)。

CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted,GroundTruth,crRNA
中國(guó)工程院院士、清華大學(xué)講席教授、智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤表示:“AIRFold是AIR自研的一款自動(dòng)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái),針對(duì)復(fù)雜同源序列分布的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了全新的解決方案。AIRFold的成功,標(biāo)志著中國(guó)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的前沿技術(shù)達(dá)到了世界領(lǐng)先水平,也將對(duì)未來(lái)AI賦能智能新藥研發(fā)提供良好的基礎(chǔ)和助力。我也期待未來(lái)有更多的優(yōu)秀研究人員加入到這個(gè)新興交叉科學(xué)領(lǐng)域,進(jìn)一步發(fā)揮AI的價(jià)值?!?/p>
目前,AIRFold的相關(guān)技術(shù)還在蛋白單點(diǎn)突變,多構(gòu)象評(píng)估等關(guān)鍵問(wèn)題上取得初步進(jìn)展。未來(lái),清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)AI+生命科學(xué)研究團(tuán)隊(duì)將與海內(nèi)外領(lǐng)先的科研及產(chǎn)業(yè)機(jī)構(gòu)合作,持續(xù)推進(jìn)結(jié)構(gòu)預(yù)測(cè)以及蛋白設(shè)計(jì)等大分子藥物開(kāi)發(fā)的核心問(wèn)題的研究,為AIR賦能生命科學(xué)作出努力和貢獻(xiàn)。
CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞爾大學(xué)聯(lián)合舉辦的全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域最重要的比賽之一。CAMEO競(jìng)賽會(huì)持續(xù)收集最新即將公開(kāi)的蛋白質(zhì)序列,并每周從中挑選部分序列作為賽題。在賽題公開(kāi)到評(píng)測(cè)的四天窗口期中,參賽團(tuán)隊(duì)需要對(duì)每一個(gè)蛋白序列進(jìn)行三維結(jié)構(gòu)預(yù)測(cè),最終不同團(tuán)隊(duì)的提交結(jié)果通過(guò)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)lDDT(local Distance Different Test)進(jìn)行排名。
供稿:智能產(chǎn)業(yè)研究院
編輯:李華山
審核:呂婷