清華新聞網(wǎng)12月26日電 近日,2023年度自然語(yǔ)言處理實(shí)證方法會(huì)議(The 2023 Conference on Empirical Methods in Natural Language Processing,簡(jiǎn)稱(chēng)EMNLP 2023)在新加坡召開(kāi)。計(jì)算機(jī)系知識(shí)工程實(shí)驗(yàn)室發(fā)表的論文《保持知識(shí)不變性:反思開(kāi)放信息抽取的魯棒性驗(yàn)證》(Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction)榮獲EMNLP 2023杰出論文獎(jiǎng)。該論文第一作者為計(jì)算機(jī)系知識(shí)工程實(shí)驗(yàn)室博士生齊濟(jì),其他作者包括計(jì)算機(jī)系知識(shí)工程實(shí)驗(yàn)室博士生王曉智、曾開(kāi)勝、于濟(jì)凡、劉金鑫和對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)本科生張楚淳。指導(dǎo)教師為計(jì)算機(jī)系研究員許斌、教授李涓子和助理研究員侯磊。

獲獎(jiǎng)證書(shū)
論文聚焦開(kāi)放信息抽取模型在現(xiàn)實(shí)世界場(chǎng)景下的準(zhǔn)確性和魯棒性,首次提出了一個(gè)模擬現(xiàn)實(shí)世界場(chǎng)景魯棒性驗(yàn)證的開(kāi)放信息抽取評(píng)測(cè)基準(zhǔn),在該基準(zhǔn)中具有相同知識(shí)含義的句子可能在句法和表述上發(fā)生遷移。論文提出了一種新的樣本數(shù)據(jù)結(jié)構(gòu)——知識(shí)不變團(tuán) (Knowledge-Invariant Clique),由知識(shí)含義相同但句法和表述形式均出現(xiàn)遷移的多個(gè)句子組成;設(shè)計(jì)并標(biāo)注了一個(gè)大規(guī)模的試驗(yàn)平臺(tái)以及一個(gè)魯棒性指標(biāo)的計(jì)算方法,只有當(dāng)一個(gè)模型在知識(shí)不變團(tuán)內(nèi)全部樣本上均準(zhǔn)確時(shí)才能被判定為魯棒。通過(guò)對(duì)過(guò)去十年開(kāi)放信息抽取的典型模型以及一個(gè)具有代表性的大語(yǔ)言模型進(jìn)行實(shí)驗(yàn),結(jié)果表明論文所提出的基準(zhǔn)能夠有效驗(yàn)證開(kāi)放信息抽取模型在現(xiàn)實(shí)世界場(chǎng)景下的準(zhǔn)確性和魯棒性。該論文相關(guān)的數(shù)據(jù)、算法、標(biāo)注指南和分析工具均已開(kāi)源。

齊濟(jì)(左三)、王曉智(左一)和于濟(jì)凡(左二)在大會(huì)現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)
EMNLP是計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域頂級(jí)國(guó)際會(huì)議之一,是由計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)下屬的語(yǔ)言數(shù)據(jù)特別興趣小組(SIGDAT)主辦的NLP領(lǐng)域頂級(jí)國(guó)際會(huì)議,一年舉辦一次。
EMNLP 2023共收到4909篇論文投稿,其中1047篇被主會(huì)接收,錄用率為21.3%。主會(huì)接收的論文中25篇獲得杰出論文獎(jiǎng)。
供稿:計(jì)算機(jī)系
編輯:陳曉艷
審核:郭玲