清華新聞網(wǎng)7月14日電 從頭(de novo)蛋白質(zhì)設(shè)計(jì),旨在創(chuàng)造具有全新結(jié)構(gòu)與功能的蛋白質(zhì)分子,是生物醫(yī)藥與合成生物學(xué)等領(lǐng)域的關(guān)鍵前沿技術(shù)。近年來(lái),以擴(kuò)散模型為代表的生成式人工智能,為這一領(lǐng)域帶來(lái)了革命性的推動(dòng)力。在此背景下,如何引導(dǎo)這些強(qiáng)大的生成模型,使其不僅能創(chuàng)造出合理且新穎的結(jié)構(gòu),更能系統(tǒng)性地、可控地覆蓋更加廣闊和多樣的蛋白質(zhì)折疊宇宙,成為了推動(dòng)該領(lǐng)域向前發(fā)展的關(guān)鍵議題。
清華大學(xué)生命學(xué)院龔海鵬課題組與合作者近日在《自然-機(jī)器智能》(Nature Machine Intelligence)發(fā)表了題為“利用全局幾何潛在編碼改進(jìn)基于擴(kuò)散的蛋白質(zhì)骨架生成”(Improving diffusion-based protein backbone generation with global-geometry-aware latent encoding)的研究論文。該研究面對(duì)當(dāng)前蛋白質(zhì)設(shè)計(jì)領(lǐng)域中擴(kuò)散生成模型(diffusion-based generative models)的關(guān)鍵瓶頸,提出了深度生成模型框架TopoDiff。TopoDiff通過(guò)無(wú)監(jiān)督地學(xué)習(xí)一個(gè)能夠捕捉蛋白質(zhì)全局幾何特征的低維潛空間(latent space),顯著提升了生成蛋白質(zhì)骨架的多樣性和對(duì)自然蛋白質(zhì)折疊空間的覆蓋度,并實(shí)現(xiàn)了新穎的多維度、可解釋的生成過(guò)程控制。研究團(tuán)隊(duì)通過(guò)該方法成功設(shè)計(jì)并驗(yàn)證了一系列具有全新拓?fù)湫问降摩抡郫B蛋白。
為解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一種遵循“自頂向下”(top-down)設(shè)計(jì)哲學(xué)的生成模型框架。其關(guān)鍵創(chuàng)新在于“解耦”——將一體化的結(jié)構(gòu)生成問(wèn)題分解為“定義全局幾何藍(lán)圖”與“構(gòu)建原子細(xì)節(jié)”兩個(gè)功能模塊。它引入一個(gè)統(tǒng)一的、固定維度的低維隱空間,專(zhuān)門(mén)用于表征和調(diào)控蛋白質(zhì)的宏觀(guān)幾何布局,而將復(fù)雜的原子坐標(biāo)采樣交由條件擴(kuò)散模型完成。
這樣的設(shè)計(jì)思想通過(guò)一個(gè)雙階段流程得以實(shí)現(xiàn):首先,通過(guò)聯(lián)合訓(xùn)練,使編碼器學(xué)會(huì)“理解”并繪制蛋白質(zhì)的幾何藍(lán)圖,而解碼器則學(xué)會(huì)“執(zhí)行”該藍(lán)圖指令;隨后,再訓(xùn)練一個(gè)輕量級(jí)的潛空間擴(kuò)散模型,用于學(xué)習(xí)并采樣新的、多樣的全局幾何編碼。最終,整個(gè)生成過(guò)程演變?yōu)橄炔蓸右粋€(gè)全局編碼,再由解碼器據(jù)此生成完整結(jié)構(gòu),實(shí)現(xiàn)了從宏觀(guān)到微觀(guān)的清晰、可控的設(shè)計(jì)流程。

TopoDiff整體框架
為驗(yàn)證模型是否真正理解了蛋白質(zhì)的結(jié)構(gòu)規(guī)律,研究團(tuán)隊(duì)利用訓(xùn)練好的編碼器對(duì)CATH、SCOPe等多個(gè)數(shù)據(jù)庫(kù)的結(jié)構(gòu)進(jìn)行編碼和降維可視化。結(jié)果顯示,在完全無(wú)監(jiān)督的訓(xùn)練模式下,TopoDiff學(xué)到的潛空間流形與不同數(shù)據(jù)庫(kù)的人工注釋高度吻合。不同折疊類(lèi)型的蛋白質(zhì)在潛空間中自動(dòng)聚類(lèi)成清晰的區(qū)域。這種由數(shù)據(jù)驅(qū)動(dòng)學(xué)到的連續(xù)空間表示,有效克服了不同分類(lèi)體系因劃分標(biāo)準(zhǔn)主觀(guān)性(subjectivity)與離散性(discreteness)帶來(lái)的不一致問(wèn)題,為理解不同蛋白質(zhì)折疊之間的連續(xù)過(guò)渡關(guān)系,乃至發(fā)現(xiàn)潛在的分類(lèi)模糊區(qū)域和錯(cuò)誤注釋?zhuān)峁┝巳碌摹⒏陀^(guān)的視角。
為定量評(píng)估模型對(duì)已知折疊空間的覆蓋能力,解決現(xiàn)有指標(biāo)的空白,團(tuán)隊(duì)首次在蛋白質(zhì)設(shè)計(jì)領(lǐng)域引入了“覆蓋度”(Coverage)評(píng)估指標(biāo)。與多個(gè)前沿模型的性能基準(zhǔn)測(cè)試結(jié)果顯示,TopoDiff在保持高可設(shè)計(jì)性的同時(shí),其覆蓋度指標(biāo)顯著優(yōu)于所有基線(xiàn)模型,尤其是在傳統(tǒng)模型代表性不足的折疊類(lèi)型上,展現(xiàn)出明顯的優(yōu)勢(shì),有效修正了采樣偏差。更有趣的是,其獨(dú)特的隱空間設(shè)計(jì)解鎖了多種全新的可控生成模式,如屬性引導(dǎo)生成、隱編碼插值、全局與局部協(xié)同控制等,極大地豐富了蛋白質(zhì)設(shè)計(jì)的工具箱。

TopoDiff生成性能基準(zhǔn)評(píng)測(cè)
為了最終檢驗(yàn)TopoDiff在真實(shí)世界中的設(shè)計(jì)潛力,團(tuán)隊(duì)挑戰(zhàn)了設(shè)計(jì)全新拓?fù)洇碌鞍走@一公認(rèn)難題。利用模型的可控生成能力,團(tuán)隊(duì)在計(jì)算層面高效地篩選出候選設(shè)計(jì),并通過(guò)多種實(shí)驗(yàn)手段,驗(yàn)證了多個(gè)設(shè)計(jì)具有明確的單體狀態(tài)、正確的二級(jí)結(jié)構(gòu)和出色的熱穩(wěn)定性。其中,設(shè)計(jì)B10的高分辨率X射線(xiàn)晶體結(jié)構(gòu)被成功解析,其結(jié)構(gòu)與計(jì)算模型高度吻合,更重要的是,其展現(xiàn)出一種在自然界中前所未見(jiàn)的全新蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)。這一“從計(jì)算到現(xiàn)實(shí)”的成功閉環(huán),強(qiáng)有力地證明了TopoDiff有能力突破自然演化的邊界,探索并創(chuàng)造全新的蛋白質(zhì)結(jié)構(gòu)宇宙,為未來(lái)功能分子的理性設(shè)計(jì)開(kāi)辟了新的道路。

新穎β蛋白的從頭設(shè)計(jì)及實(shí)驗(yàn)驗(yàn)證
清華大學(xué)生命學(xué)院副教授龔海鵬與北京生命科學(xué)研究所、清華大學(xué)生物醫(yī)學(xué)交叉研究院研究員徐純福為論文的通訊作者,清華大學(xué)生命學(xué)院2021級(jí)博士生張昱陽(yáng)、北京生命科學(xué)研究所2022級(jí)博士生劉宇航、加州大學(xué)圣迭戈分校2024級(jí)博士生馬子惠為論文共同第一作者。清華大學(xué)蛋白質(zhì)晶體平臺(tái)教師李敏、范仕龍為研究提供了重要幫助。研究得到科技部、國(guó)家自然科學(xué)基金和北京生物結(jié)構(gòu)前沿研究中心的經(jīng)費(fèi)支持。
論文鏈接:
https://www.nature.com/articles/s42256-025-01059-x
供稿:生命學(xué)院
編輯:劉芳芳
審核:郭玲