清華新聞網(wǎng)3月24日電 2018年以來(lái),預(yù)訓(xùn)練語(yǔ)言模型(PLM)及其“預(yù)訓(xùn)練-微調(diào)”方法已成為自然語(yǔ)言處理(NLP)任務(wù)的主流范式,該范式先利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)通過(guò)自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練語(yǔ)言大模型,得到基礎(chǔ)模型,再利用下游任務(wù)的有標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)微調(diào)模型參數(shù),實(shí)現(xiàn)下游任務(wù)的適配(圖1)。越來(lái)越多實(shí)驗(yàn)表明:規(guī)模越大的模型不僅在已知任務(wù)上有著更好的表現(xiàn),同時(shí)展現(xiàn)出完成更復(fù)雜的未知任務(wù)的強(qiáng)大泛化能力,近年出現(xiàn)的GPT-3、ChatGPT等均為大規(guī)模預(yù)訓(xùn)練模型的代表。然而,現(xiàn)有對(duì)大規(guī)模預(yù)訓(xùn)練模型的全部參數(shù)進(jìn)行微調(diào)實(shí)現(xiàn)任務(wù)適配的做法,會(huì)消耗大量的GPU計(jì)算資源和存儲(chǔ)資源,嚴(yán)重限制大模型的應(yīng)用場(chǎng)景。為了應(yīng)對(duì)該挑戰(zhàn),參數(shù)高效微調(diào)(Parameter-efficient Fine-tuning)方法逐漸受到關(guān)注。與全參數(shù)微調(diào)相比,參數(shù)高效微調(diào)方法凍結(jié)預(yù)訓(xùn)練模型99%以上的參數(shù),僅利用少量下游任務(wù)數(shù)據(jù)微調(diào)少于1%模型規(guī)模的參數(shù),作為模型插件實(shí)現(xiàn)大模型對(duì)下游任務(wù)的適配,達(dá)到媲美全參數(shù)微調(diào)的性能,并顯著降低微調(diào)過(guò)程的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。

圖1.基礎(chǔ)模型的“預(yù)訓(xùn)練-微調(diào)”范式與傳統(tǒng)深度學(xué)習(xí)的對(duì)比
研究團(tuán)隊(duì)提出,參數(shù)高效微調(diào)方法的本質(zhì)是在對(duì)“增量參數(shù)”(Delta Parameters)進(jìn)行調(diào)整,因此將此類(lèi)方法命名為“增量微調(diào)”(Delta Tuning),并基于統(tǒng)一的分析框架對(duì)增量微調(diào)現(xiàn)有方法進(jìn)行梳理總結(jié),將現(xiàn)有方法分為三類(lèi)(如圖2所示):添加式(Addition-based)、指定式(Specification-based)和重參數(shù)化(Reparameterization-based)方法。為了指導(dǎo)后續(xù)的模型架構(gòu)和算法設(shè)計(jì),團(tuán)隊(duì)還進(jìn)一步從參數(shù)優(yōu)化和最優(yōu)控制兩個(gè)角度,提出了增量微調(diào)的理論框架,為探索和解釋增量微調(diào)的內(nèi)在機(jī)理提供了可行方案。

圖2.統(tǒng)一視角的增量微調(diào)框架
該研究工作選擇了超過(guò)100個(gè)自然語(yǔ)言處理任務(wù),對(duì)主流增量微調(diào)方法進(jìn)行了全面細(xì)致的性能比較和分析,得出多項(xiàng)重要結(jié)論,例如:(1)基礎(chǔ)模型隨著參數(shù)規(guī)模的不斷增大,在性能顯著提高的同時(shí),不同增量微調(diào)方法的差異急劇減少(圖3),最少僅需要優(yōu)化萬(wàn)分之八的模型參數(shù)即可完成適配;(2)不同增量微調(diào)方法可以進(jìn)行并行或者串行的組合從而達(dá)到更優(yōu)的性能,表明了分布在模型參數(shù)空間中的智能能力可以進(jìn)行組合和泛化;(3)增量微調(diào)方法具備良好的任務(wù)級(jí)別的遷移能力,完成特定任務(wù)的“能力”可以表示為輕量級(jí)參數(shù)化的形式,可以在不同基礎(chǔ)模型和不同用戶(hù)之間共享。以上研究表明,增量微調(diào)是基礎(chǔ)模型的重要特性,上述結(jié)論將加深對(duì)基礎(chǔ)模型的認(rèn)識(shí),為其創(chuàng)新研究與應(yīng)用提供重要支撐。

圖3.隨著基礎(chǔ)模型參數(shù)規(guī)模的增大,增量微調(diào)方法可以更有效地激發(fā)模型性能
研究團(tuán)隊(duì)自2018年以來(lái)堅(jiān)持開(kāi)展語(yǔ)言大模型創(chuàng)新研究,并堅(jiān)持建設(shè)OpenBMB開(kāi)源社區(qū),致力于構(gòu)建大規(guī)模預(yù)訓(xùn)練模型全流程高效計(jì)算工具體系,相關(guān)工作在全球最大的開(kāi)源社區(qū)GitHub上累計(jì)獲得超過(guò)4000星標(biāo)關(guān)注,曾獲自然語(yǔ)言處理領(lǐng)域著名國(guó)際會(huì)議ACL 2022最佳系統(tǒng)演示論文獎(jiǎng)等榮譽(yù)。研究團(tuán)隊(duì)基于該論文成果研制發(fā)布了開(kāi)源工具包OpenDelta,是OpenBMB開(kāi)源社區(qū)的重要組成部分,可支持研究者和開(kāi)發(fā)者靈活高效地在各類(lèi)預(yù)訓(xùn)練模型上實(shí)現(xiàn)和應(yīng)用增量微調(diào)方法。研究團(tuán)隊(duì)認(rèn)為,增量微調(diào)技術(shù)將是基礎(chǔ)模型適配特定任務(wù)、場(chǎng)景和用戶(hù)的重要范式,可更有效地激發(fā)以ChatGPT為代表的大規(guī)模預(yù)訓(xùn)練模型的性能。
相關(guān)研究成果“面向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)高效微調(diào)”(Parameter-efficient Fine-tuning of Large-scale Pre-trained Language Models)于3月23日被國(guó)際知名期刊《自然·機(jī)器智能》(Nature Machine Intelligence)作為封面文章發(fā)表。
該研究成果由清華大學(xué)計(jì)算機(jī)系孫茂松、李涓子、唐杰、劉洋、陳鍵飛、劉知遠(yuǎn)和深圳國(guó)際研究生院鄭海濤等團(tuán)隊(duì)師生共同完成,清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)、深圳國(guó)際研究生院副教授鄭海濤、計(jì)算機(jī)系教授孫茂松為該文章的共同通訊作者,清華大學(xué)計(jì)算機(jī)系2018級(jí)博士生丁寧與2019級(jí)博士生秦禹嘉為該文章的共同第一作者。該研究得到科技部科技創(chuàng)新2030“新一代人工智能”重大項(xiàng)目、國(guó)家自然科學(xué)基金、北京智源人工智能研究院、清華大學(xué)國(guó)強(qiáng)研究院的支持。
論文鏈接:
https://www.nature.com/articles/s42256-023-00626-4
供稿:計(jì)算機(jī)系
題圖設(shè)計(jì):趙存存
編輯:李華山
審核:郭玲