清華新聞網(wǎng)9月8日電 近日,計(jì)算機(jī)系自然語(yǔ)言處理實(shí)驗(yàn)室研究團(tuán)隊(duì)與北京大學(xué)化學(xué)與分子工程學(xué)院朱戎團(tuán)隊(duì)合作,在化學(xué)合成指令的自動(dòng)轉(zhuǎn)寫(xiě)方面取得新進(jìn)展。研究團(tuán)隊(duì)提出了化學(xué)合成指令的雙向轉(zhuǎn)寫(xiě)任務(wù),對(duì)自然語(yǔ)言描述和機(jī)器可執(zhí)行操作指令之間的轉(zhuǎn)化過(guò)程進(jìn)行了標(biāo)準(zhǔn)定義與數(shù)據(jù)標(biāo)注。該工作搭建了文獻(xiàn)描述與合成指令之間的雙向轉(zhuǎn)寫(xiě)系統(tǒng),并且提出多細(xì)粒度知識(shí)注入方法,針對(duì)不同層級(jí)設(shè)計(jì)預(yù)訓(xùn)練任務(wù),讓語(yǔ)言模型更高效精準(zhǔn)地學(xué)習(xí)化學(xué)合成專(zhuān)業(yè)知識(shí)。在相關(guān)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該工作構(gòu)建的模型能夠在合成指令雙向轉(zhuǎn)寫(xiě)上全面超過(guò)GPT-3.5系列模型表現(xiàn),使用該系統(tǒng)輔助轉(zhuǎn)寫(xiě)的人工效率提高40%以上。
以GPT-4為代表的大語(yǔ)言模型已在各學(xué)科中展現(xiàn)出了強(qiáng)大的專(zhuān)業(yè)知識(shí)學(xué)習(xí)能力,成為“科學(xué)人工智能”(AI for Science)方向令人矚目的熱門(mén)話(huà)題。在合成化學(xué)領(lǐng)域,人工智能驅(qū)動(dòng)的自動(dòng)化實(shí)驗(yàn)平臺(tái)是近年來(lái)的研究熱點(diǎn),有望替代人類(lèi)研究者開(kāi)展枯燥重復(fù)的甚至有危險(xiǎn)的合成實(shí)驗(yàn)。而實(shí)現(xiàn)自動(dòng)化學(xué)合成的關(guān)鍵是利用好現(xiàn)在廣泛存在于各類(lèi)文獻(xiàn)中的化學(xué)合成實(shí)驗(yàn)。然而,已有的化學(xué)合成實(shí)驗(yàn)流程均以自然語(yǔ)言的非結(jié)構(gòu)化形式記錄在文獻(xiàn)和數(shù)據(jù)庫(kù)中,這些散落在文獻(xiàn)中的合成流程的自然語(yǔ)言描述與機(jī)器可執(zhí)行的指令之間,存在著巨大的形式和語(yǔ)義鴻溝,需要人力轉(zhuǎn)寫(xiě)才能用于人工智能自動(dòng)化實(shí)驗(yàn)。研制化學(xué)合成指令轉(zhuǎn)寫(xiě)系統(tǒng),實(shí)現(xiàn)海量自然語(yǔ)言實(shí)驗(yàn)記錄向機(jī)器合成指令的高效轉(zhuǎn)化,支持完成更多化學(xué)合成的自動(dòng)化實(shí)驗(yàn),具有重要的研究意義和應(yīng)用價(jià)值。

合成指令雙向轉(zhuǎn)寫(xiě)的工作流程示意圖

合成指令的層次化框架
該研究結(jié)合大量化學(xué)文獻(xiàn)的統(tǒng)計(jì)結(jié)果和專(zhuān)家知識(shí),制定了化學(xué)合成指令的層次化框架,包含16種元操作和18種參數(shù);參考序列匹配任務(wù)的評(píng)測(cè)方式,設(shè)計(jì)了SeqMatch指標(biāo),對(duì)合成指令轉(zhuǎn)寫(xiě)任務(wù)的標(biāo)準(zhǔn)化評(píng)測(cè)具有重要作用;提出了針對(duì)合成化學(xué)的多細(xì)粒度知識(shí)增強(qiáng)預(yù)訓(xùn)練方法,在單詞級(jí)、化學(xué)實(shí)體級(jí)、元操作級(jí)和合成序列級(jí),分別設(shè)計(jì)了掩碼學(xué)習(xí)、實(shí)體識(shí)別、操作映射、序列預(yù)測(cè)等多種預(yù)訓(xùn)練任務(wù),賦予模型以當(dāng)前任務(wù)所需的豐富的化學(xué)知識(shí)。
該系統(tǒng)相較于其他類(lèi)似工作可以實(shí)現(xiàn)更完備而準(zhǔn)確的合成指令生成,也能根據(jù)指令撰寫(xiě)流暢自然的合成化學(xué)文獻(xiàn)段落。該工作還探索了當(dāng)前模型的更多可能用途,例如針對(duì)特定合成指令預(yù)測(cè)下一步驟、根據(jù)轉(zhuǎn)寫(xiě)表現(xiàn)篩選出更簡(jiǎn)明規(guī)范的文本等。這些實(shí)驗(yàn)表明,預(yù)訓(xùn)練模型可以提供面向通用合成規(guī)律以及合成描述規(guī)范性的洞察。

本系統(tǒng)與同類(lèi)系統(tǒng)的指令轉(zhuǎn)寫(xiě)表現(xiàn)對(duì)比

本系統(tǒng)與GPT-3.5系列模型在雙向轉(zhuǎn)寫(xiě)任務(wù)上的表現(xiàn)對(duì)比
8月24日,研究成果在英國(guó)皇家化學(xué)會(huì)綜合性旗艦期刊《化學(xué)科學(xué)》(Chemical Science)以“人類(lèi)可讀的合成描述與機(jī)器可執(zhí)行的指令之間的轉(zhuǎn)寫(xiě):最新預(yù)訓(xùn)練技術(shù)的應(yīng)用”(Transcription between human-readable synthetic descriptions and machine-executable instructions: an application of the latest pre-training technology)為題發(fā)表。這是該課題組繼“橋接分子結(jié)構(gòu)與生醫(yī)文本的預(yù)訓(xùn)練語(yǔ)言模型”(Nature Communications, 2022)之后,在生化與自然語(yǔ)言處理交叉領(lǐng)域的又一重要進(jìn)展。
清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)、北京大學(xué)化學(xué)與分子工程學(xué)院研究員朱戎為文章的通訊作者。清華大學(xué)計(jì)算機(jī)系博士生曾哲妮、丁寧,北京大學(xué)本科生聶翊宸為文章的共同第一作者。該研究得到國(guó)家自然科學(xué)基金委和國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目的資助。
論文鏈接:
https://doi.org/10.1039/D3SC02483K
供稿:計(jì)算機(jī)系
題圖設(shè)計(jì):梁晨
編輯:李華山
審核:郭玲