太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

清華聯(lián)合研發(fā)的生物醫(yī)學(xué)信息學(xué)本體系統(tǒng)BIOS成為全球最大開(kāi)放生物醫(yī)學(xué)知識(shí)圖譜

清華新聞網(wǎng)8月3日電 7月,由清華大學(xué)統(tǒng)計(jì)學(xué)研究中心俞聲副教授課題組和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA)AI平臺(tái)技術(shù)研究中心聯(lián)合開(kāi)發(fā)的大型開(kāi)放生物醫(yī)學(xué)知識(shí)圖譜——“生物醫(yī)學(xué)信息學(xué)本體系統(tǒng)”BIOS(Biomedical Informatics Ontology System)迎來(lái)重大更新,躍升成為世界最大的開(kāi)放生物醫(yī)學(xué)知識(shí)圖譜。

生物醫(yī)學(xué)知識(shí)圖譜是一種由生物醫(yī)學(xué)概念、術(shù)語(yǔ)、關(guān)系以及ID系統(tǒng)等要素構(gòu)成的特殊數(shù)據(jù)庫(kù),是生物醫(yī)學(xué)信息學(xué)的重要基礎(chǔ)設(shè)施。一直以來(lái),由美國(guó)開(kāi)發(fā)的“一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)”UMLS(Unified Medical Language System)是生物醫(yī)學(xué)知識(shí)圖譜的標(biāo)桿,以455萬(wàn)概念、2095萬(wàn)關(guān)系的巨大規(guī)模和開(kāi)放屬性,為英文領(lǐng)域生物醫(yī)藥大數(shù)據(jù)分析、自然語(yǔ)言處理、人工智能開(kāi)發(fā)和數(shù)據(jù)交換作出了卓越貢獻(xiàn)。中文領(lǐng)域由于缺乏可開(kāi)放獲取的大型生物醫(yī)學(xué)知識(shí)圖譜,導(dǎo)致國(guó)內(nèi)的醫(yī)學(xué)大數(shù)據(jù)分析缺乏平臺(tái)基礎(chǔ),科研與技術(shù)發(fā)展受到嚴(yán)重制約。同時(shí),基于多數(shù)據(jù)庫(kù)整合和專(zhuān)家整理的UMLS也日漸老化,其數(shù)據(jù)質(zhì)量與發(fā)展速度已無(wú)法滿(mǎn)足大數(shù)據(jù)與人工智能時(shí)代的需要。

20220802-BIOS是全流程由算法預(yù)測(cè)獲得的知識(shí)圖譜-圖譜截圖-統(tǒng)計(jì)中心.png

BIOS是全流程由算法預(yù)測(cè)獲得的知識(shí)圖譜

基于算法驅(qū)動(dòng)、開(kāi)源開(kāi)放理念,以CreativeCommonsBY-NC-ND 4.0協(xié)議發(fā)布的BIOS中英文知識(shí)圖譜自2021年11月發(fā)布以來(lái)受到了廣泛關(guān)注。BIOS是首個(gè)完全由機(jī)器學(xué)習(xí)算法生成的大型開(kāi)放生物醫(yī)學(xué)知識(shí)圖譜,其術(shù)語(yǔ)發(fā)現(xiàn)、語(yǔ)義分析、概念生成、關(guān)系發(fā)現(xiàn)、跨語(yǔ)言對(duì)齊完全由模型自動(dòng)實(shí)現(xiàn)。在本次更新中,研發(fā)團(tuán)隊(duì)根據(jù)真實(shí)數(shù)據(jù)效果,不斷強(qiáng)化算法技術(shù),終于取得了振奮人心的突破性進(jìn)展,使新版BIOS(2022V2版)一舉達(dá)到了2848萬(wàn)概念、5456萬(wàn)術(shù)語(yǔ)(3348萬(wàn)英文、2108萬(wàn)中文)的巨大體量,術(shù)語(yǔ)質(zhì)量也得到進(jìn)一步提升。

20220802-BIOS與UMLS概念與術(shù)語(yǔ)數(shù)量對(duì)比-圖譜截圖-統(tǒng)計(jì)中心.png

BIOS與UMLS概念與術(shù)語(yǔ)數(shù)量對(duì)比

20220802-BIOS與UMLS術(shù)語(yǔ)覆蓋度與質(zhì)量對(duì)比(基于正向最大匹配)-圖譜截圖-統(tǒng)計(jì)中心.png

BIOS與UMLS術(shù)語(yǔ)覆蓋度與質(zhì)量對(duì)比(基于正向最大匹配)

而為了滿(mǎn)足如此體量概念的關(guān)系挖掘,研究團(tuán)隊(duì)創(chuàng)新地提出了由“基于文本的關(guān)系提取”到“基于大模型自有知識(shí)的關(guān)系生成”的模式轉(zhuǎn)變,獲得了1.12億個(gè)關(guān)系三元組。目前BIOS只包含知識(shí)圖譜的骨架“上下位關(guān)系”的預(yù)測(cè),更豐富的關(guān)系將在下半年的更新中發(fā)布。

20220802-2022V2版BIOS包含的主要內(nèi)容-圖譜截圖-統(tǒng)計(jì)中心.png

2022V2版BIOS包含的主要內(nèi)容

對(duì)比開(kāi)發(fā)已有35年的UMLS,BIOS在短短一年半的時(shí)間里,使體量達(dá)到了UMLS的數(shù)倍,不僅扭轉(zhuǎn)了中文領(lǐng)域缺乏大型開(kāi)放生物醫(yī)學(xué)知識(shí)圖譜的困難局面,更充分證明了人工智能的巨大潛力。

通過(guò)BIOS系統(tǒng)的研發(fā),統(tǒng)計(jì)學(xué)研究中心培養(yǎng)了一批具有數(shù)據(jù)科學(xué)方向理論創(chuàng)新與實(shí)戰(zhàn)能力的優(yōu)秀本科生與博士生。未來(lái),統(tǒng)計(jì)學(xué)研究中心將與IDEA研究院以及更多國(guó)內(nèi)外頂尖醫(yī)院、科研機(jī)構(gòu)合作,不斷擴(kuò)大和完善BIOS的內(nèi)容、質(zhì)量以及相關(guān)系統(tǒng)建設(shè),帶動(dòng)并引領(lǐng)生物醫(yī)學(xué)大數(shù)據(jù)與人工智能行業(yè)的發(fā)展。

相關(guān)鏈接:

https://bios.idea.edu.cn

供稿:工業(yè)工程系

編輯:邱收

審核:呂婷

2022年08月03日 09:14:41

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.