清華新聞網(wǎng)1月15日電 在圖像識(shí)別領(lǐng)域,ImageNet數(shù)據(jù)集的重要性不言而喻。在生物計(jì)算領(lǐng)域,2024年黃牛實(shí)驗(yàn)室發(fā)布的BindingNetv1數(shù)據(jù)集獨(dú)樹(shù)一幟,采用模板匹配技術(shù)構(gòu)建了高質(zhì)量的蛋白-配體復(fù)合物三維結(jié)構(gòu)模型,有效減輕了AI模型在蛋白-小分子親和力預(yù)測(cè)中因包埋溶劑可及表面積引發(fā)的偏見(jiàn)等問(wèn)題,為蛋白-配體相互作用研究領(lǐng)域中AI模型的評(píng)估和優(yōu)化奠定了堅(jiān)實(shí)基礎(chǔ),此階段稱(chēng)之為“從大數(shù)據(jù)到好數(shù)據(jù)”(From Big Data to Good Data)。
然而,AI對(duì)數(shù)據(jù)的需求永無(wú)止境,接下來(lái)進(jìn)入“使好數(shù)據(jù)更好”(Make Good Data Greater)的階段。1月8日,清華大學(xué)生物醫(yī)學(xué)交叉研究院黃牛實(shí)驗(yàn)室于《藥物發(fā)現(xiàn)》(npj Drug Discovery)雜志在線(xiàn)發(fā)表題為“使用深度學(xué)習(xí)增強(qiáng)配體結(jié)合姿態(tài)預(yù)測(cè)的增強(qiáng)BindingNet數(shù)據(jù)集”(Augmented BindingNet dataset for enhanced ligand binding pose predictions using deep learning)的研究論文。在BindingNetv1數(shù)據(jù)集的模板匹配技術(shù)基礎(chǔ)上,創(chuàng)新性地提出了基于片段化結(jié)合形狀與靜電匹配的多層次模板匹配流程,成功構(gòu)建出規(guī)模遠(yuǎn)超BindingNetv1近十倍規(guī)模的蛋白-配體相互作用數(shù)據(jù)集——BindingNet v2。此數(shù)據(jù)集覆蓋1794個(gè)蛋白靶點(diǎn),包含689796個(gè)蛋白-小分子配體復(fù)合體結(jié)構(gòu)模型及其相應(yīng)的實(shí)驗(yàn)活性數(shù)據(jù),極大地提升了AI模型在蛋白-配體復(fù)合體預(yù)測(cè)任務(wù)上的泛化能力。尤其在僅使用Tc<0.3的數(shù)據(jù)(不包含同測(cè)試集中結(jié)構(gòu)類(lèi)似的分子)訓(xùn)練時(shí),Uni-Mol模型在PoseBusters測(cè)試集上的泛化能力從38.55%大幅躍升至74.07%。
研究團(tuán)隊(duì)從PDB數(shù)據(jù)庫(kù)中篩選出26438套高質(zhì)量的蛋白-小分子復(fù)合物結(jié)構(gòu)作為模板,并從ChEMBL數(shù)據(jù)庫(kù)中挑選出724319對(duì)實(shí)驗(yàn)驗(yàn)證的蛋白-小分子數(shù)據(jù)對(duì)。隨后,通過(guò)以下五個(gè)步驟構(gòu)建多層次模板匹配流程(圖1)。第一,計(jì)算候選分子與模板分子之間的最大公共子結(jié)構(gòu)占有率;第二,若候選分子的最大公共子結(jié)構(gòu)占有率超過(guò)0.6,則直接將候選分子與模板分子進(jìn)行疊合;若未達(dá)到占有率要求,則對(duì)候選分子進(jìn)行片段化處理,并借助SHAFTS工具探尋片段與模板分子間三維形狀及藥效團(tuán)疊合程度(即hybrid score)最高的構(gòu)象;第三,使用ETKDG對(duì)疊合后的剩余部分結(jié)構(gòu)進(jìn)行采樣、聚類(lèi)、過(guò)濾操作,計(jì)算hybrid score,以確保構(gòu)象的合理性;第四,挑選hybrid score排名前20個(gè)的復(fù)合物結(jié)構(gòu)進(jìn)行MM/GB-SA優(yōu)化;第五,選取hybrid score最高的復(fù)合體作為最終構(gòu)象。

圖1.多層次模板匹配流程
借助多層次的模板匹配流程,研究團(tuán)隊(duì)成功構(gòu)建了689796個(gè)蛋白-小分子復(fù)合物結(jié)構(gòu),并為每個(gè)復(fù)合物附上對(duì)應(yīng)的實(shí)驗(yàn)活性數(shù)據(jù)。同時(shí),依據(jù)hybrid score對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量分級(jí),其中高質(zhì)量(hybrid score≥1.2)、中質(zhì)量(1.0≤hybrid score<1.2)、低質(zhì)量(hybrid score<1.0)的數(shù)據(jù)分別占33.63%、23.91%、42.45%。為便于科研人員檢索和分析,團(tuán)隊(duì)搭建了專(zhuān)屬網(wǎng)站,用戶(hù)可通過(guò)該網(wǎng)站查看構(gòu)建的復(fù)合物三維結(jié)構(gòu),開(kāi)展蛋白-小分子相互作用分析。
盡管已有多個(gè)深度學(xué)習(xí)模型在PoseBusters測(cè)試集上展現(xiàn)較高的成功率(如Uni-Mol v1:62.4%、AlphaFold3 with pocket specified:90.0%),但研究團(tuán)隊(duì)發(fā)現(xiàn),這些模型所采用的訓(xùn)練集與測(cè)試集之間小分子結(jié)構(gòu)存在很高的相似性。例如,測(cè)試集中70.09%的樣本能在PDB(v2019)中找到相似性大于0.7的訓(xùn)練樣本,超過(guò)90%的測(cè)試集樣本都能從PDB(v2019)中找到相似性大于0.3的訓(xùn)練樣本。然而,在實(shí)際應(yīng)用中,基于靶標(biāo)結(jié)構(gòu)的虛擬篩選最有意義的應(yīng)用場(chǎng)景是發(fā)現(xiàn)全新骨架的小分子,且通常以Tc<0.3作為最嚴(yán)格的篩選標(biāo)準(zhǔn)。因此,研究團(tuán)隊(duì)僅使用Tc<0.3的訓(xùn)練樣本嚴(yán)格評(píng)估Uni-Mol的泛化能力。結(jié)果顯示,僅用PDBbind(Tc<0.3)數(shù)據(jù)訓(xùn)練時(shí),Uni-Mol模型在PoseBusters測(cè)試集上的成功率僅為38.55%;隨著B(niǎo)indingNet v2中Tc<0.3的數(shù)據(jù)逐步加入訓(xùn)練集,模型泛化能力顯著提升至64.25%;結(jié)合MM/GB-SA優(yōu)化和重打分后,成功率進(jìn)一步提升至74.07%,并通過(guò)了所有物理化學(xué)合理性檢查(圖2)。
值得關(guān)注的是,僅用Tc<0.3數(shù)據(jù)訓(xùn)練的模型在類(lèi)藥子集上的成功率已超越用PDB(v2019)訓(xùn)練的AlphaFold3模型,充分驗(yàn)證了BindingNet v2數(shù)據(jù)集的重要價(jià)值。然而,BindingNet v2中的蛋白和小分子結(jié)構(gòu)多樣性仍然受限于PDB數(shù)據(jù)庫(kù),未來(lái),黃牛實(shí)驗(yàn)室將通過(guò)整合多層次數(shù)據(jù)、深度學(xué)習(xí)預(yù)測(cè)復(fù)合體結(jié)構(gòu)、結(jié)合物理方法優(yōu)化結(jié)構(gòu)以及引入半自動(dòng)化質(zhì)量標(biāo)注流程等多方面的迭代優(yōu)化,為蛋白-配體相互作用研究領(lǐng)域提供更全面且高質(zhì)量的數(shù)據(jù)支持,進(jìn)而提升人工智能方法在柔性對(duì)接、復(fù)合體構(gòu)象動(dòng)態(tài)過(guò)程預(yù)測(cè)等方面的表現(xiàn)。

圖2.使用BindingNet v2訓(xùn)練Uni-Mol
黃牛實(shí)驗(yàn)室2020級(jí)博士生朱慧為論文第一作者,黃牛研究員為論文通訊作者。其他作者包括黃牛實(shí)驗(yàn)室李雪蓮博士和工作人員陳保全。ByteDance AML-AI for Science Team為研究提供了重要的算力支持。研究獲得北京市科委和清華大學(xué)的資助,在北京生命科學(xué)研究所完成。李偉博士對(duì)論文相關(guān)內(nèi)容撰寫(xiě)給予了重要幫助。
論文鏈接:
https://doi.org/10.1038/s44386-024-00003-0
BindingNet v2網(wǎng)站:
http://bindingnetv2.huanglab.org.cn/
BindingNet v1論文鏈接:
https://pubs.acs.org/doi/10.1021/acs.jcim.3c01170
供稿:生物醫(yī)學(xué)交叉研究院
編輯:李華山
審核:郭玲