太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

藥學(xué)院田博學(xué)課題組基于蛋白質(zhì)語(yǔ)言模型和對(duì)比學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)-小分子結(jié)合位點(diǎn)

清華新聞網(wǎng)11月8日電 近日,清華大學(xué)藥學(xué)院田博學(xué)課題組研究提出了一個(gè)基于蛋白質(zhì)語(yǔ)言模型和對(duì)比學(xué)習(xí)的蛋白質(zhì)-小分子結(jié)合位點(diǎn)預(yù)測(cè)模型(CLAPE-SMB),并整理了蛋白質(zhì)-小分子結(jié)合位點(diǎn)數(shù)據(jù)集UniProtSMB,發(fā)現(xiàn)該模型在UniProtSMB的測(cè)試集上達(dá)到了0.699的MCC,優(yōu)于其他模型。與基于結(jié)構(gòu)的預(yù)測(cè)方法相比,CLAPE-SMB特別適用于缺乏精確實(shí)驗(yàn)結(jié)構(gòu)的蛋白質(zhì),如固有無(wú)序蛋白(IDP)。這就為理解蛋白質(zhì)-小分子相互作用提供新的視角,并為藥物設(shè)計(jì)提供新的可能。

蛋白質(zhì)與小分子的相互作用在很多生命活動(dòng)中發(fā)揮關(guān)鍵作用,例如催化反應(yīng)、信號(hào)傳導(dǎo)、代謝調(diào)控等。小分子通過(guò)與蛋白質(zhì)的特定位點(diǎn)結(jié)合,調(diào)控其活性,進(jìn)而影響生物體內(nèi)的多種功能。為了找到蛋白質(zhì)上的這些結(jié)合位點(diǎn),科學(xué)家們采用了許多實(shí)驗(yàn)方法,如表面等離子體共振(SPR)、質(zhì)譜分析和X射線(xiàn)晶體學(xué)等高分辨率成像技術(shù)。這些實(shí)驗(yàn)方法能精準(zhǔn)定位結(jié)合位點(diǎn),但耗時(shí)且資源需求大。計(jì)算方法為結(jié)合位點(diǎn)的預(yù)測(cè)提供了高效的補(bǔ)充,主要分為基于蛋白質(zhì)結(jié)構(gòu)和基于序列的預(yù)測(cè)模型?;诮Y(jié)構(gòu)的模型,如ScanNet和DeepSite,利用蛋白質(zhì)的三維結(jié)構(gòu)信息來(lái)確定潛在的結(jié)合位點(diǎn),精度較高,但對(duì)蛋白質(zhì)結(jié)構(gòu)的依賴(lài)限制了預(yù)測(cè)范圍、增加了應(yīng)用難度。相比之下,基于序列的模型擺脫對(duì)結(jié)構(gòu)的依賴(lài),使用簡(jiǎn)單但精確度較低。如GraphBind和DeepProSite,在僅使用序列信息的情況下表現(xiàn)一般。因此,目前基于蛋白質(zhì)序列的小分子結(jié)合位點(diǎn)的預(yù)測(cè)仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

為了解決目前模型準(zhǔn)確度低的問(wèn)題,田博學(xué)課題組提出了CLAPE-SMB。CLAPE-SMB由三個(gè)模塊組成。第一是蛋白質(zhì)語(yǔ)言模型ESM-2,將一維的序列信息編碼為二維的特征矩陣。第二是多層感知機(jī)(MLP),將二維信息轉(zhuǎn)化為殘基級(jí)別的小分子結(jié)合概率。第三是損失函數(shù)模塊,包括解決類(lèi)別不平衡的focal loss和對(duì)比學(xué)習(xí)損失函數(shù)(TCL)。

圖1.CLAPE-SMB的結(jié)構(gòu)

為了使CLAPE-SMB有更好的泛化能力,田博學(xué)課題組構(gòu)建了UniProtSMB數(shù)據(jù)集作為訓(xùn)練集。研究人員從UniProtKB數(shù)據(jù)庫(kù)中篩選出具有三維結(jié)構(gòu)和小分子結(jié)合位點(diǎn)的實(shí)驗(yàn)驗(yàn)證蛋白質(zhì),去除長(zhǎng)度過(guò)長(zhǎng)的蛋白質(zhì)并標(biāo)注標(biāo)簽。隨后,進(jìn)行聚類(lèi)去除冗余蛋白,形成UniProtSMB數(shù)據(jù)集。最后,將UniProtSMB數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

圖2.UniProtSMB數(shù)據(jù)集的構(gòu)建流程

IDP沒(méi)有穩(wěn)定的三維結(jié)構(gòu),因此依賴(lài)準(zhǔn)確結(jié)構(gòu)信息進(jìn)行預(yù)測(cè)的模型很難處理IDP。研究人員構(gòu)建了IDP數(shù)據(jù)集,CLAPE-SMB在其上獲得了0.815的MCC。進(jìn)一步,研究人員選取了兩個(gè)在固有無(wú)序區(qū)域(IDR)上有小分子結(jié)合位點(diǎn)的IDP進(jìn)行案例研究,結(jié)果顯示CLAPE-SMB能夠準(zhǔn)確預(yù)測(cè)出IDR上的結(jié)合位點(diǎn)。

圖3.固有無(wú)序蛋白的案例研究

絕大多數(shù)蛋白質(zhì)尚未解析結(jié)構(gòu),其中包括大量膜蛋白,而膜蛋白通常與多種小分子結(jié)合。未來(lái),CLAPE-SMB可以用于預(yù)測(cè)膜蛋白的小分子結(jié)合情況。此外,CLAPE-SMB還能夠結(jié)合特定小分子的SMILES信息,僅預(yù)測(cè)該小分子是否與某蛋白存在結(jié)合位點(diǎn),并定位具體的結(jié)合殘基。這一功能有望應(yīng)用于虛擬篩選和老藥新用等領(lǐng)域。

該研究提出了CLAPE-SMB,它將預(yù)訓(xùn)練的蛋白語(yǔ)言模型與對(duì)比學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了高精度的小分子結(jié)合位點(diǎn)預(yù)測(cè),尤其適用于沒(méi)有晶體結(jié)構(gòu)的蛋白質(zhì)。研究人員在基于sc-PDB、JOINED和COACH420構(gòu)建的非冗余SJC數(shù)據(jù)集上對(duì)CLAPE-SMB進(jìn)行了訓(xùn)練和測(cè)試,獲得了0.529的MCC。此外,基于UniProtKB數(shù)據(jù)構(gòu)建的UniProtSMB數(shù)據(jù)集上,CLAPE-SMB在測(cè)試集上達(dá)到了0.699的MCC。對(duì)于包含336條非冗余序列的固有無(wú)序蛋白數(shù)據(jù)集,CLAPE-SMB的MCC高達(dá)0.815。對(duì)DAPK1、RebH和Nep1的案例分析進(jìn)一步證明了該工具在藥物設(shè)計(jì)中的潛在應(yīng)用價(jià)值。

相關(guān)研究成果以“基于預(yù)訓(xùn)練蛋白質(zhì)語(yǔ)言模型和對(duì)比學(xué)習(xí)的蛋白質(zhì)-小分子結(jié)合位點(diǎn)預(yù)測(cè)”(Protein-small molecule binding site prediction based on a pre-trained protein language model with contrastive learning)為題,于11月6日發(fā)表于《化學(xué)信息學(xué)雜志》(Journal of Cheminformatics)。

清華大學(xué)藥學(xué)院副教授田博學(xué)為論文通訊作者,藥學(xué)院本科生王玨和田博學(xué)課題組已畢業(yè)博士生劉宇帆為論文共同第一作者。課題得到北京生物結(jié)構(gòu)前沿研究中心、清華大學(xué)篤實(shí)專(zhuān)項(xiàng)、清華大學(xué)-北京大學(xué)生命科學(xué)中心的支持。

論文鏈接:

https://doi.org/10.1186/s13321-024-00920-2

供稿:藥學(xué)院

題圖設(shè)計(jì):趙存存

編輯:李華山

審核:郭玲

2024年11月08日 14:30:17

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.