清華新聞網(wǎng)8月23日電 分布式機(jī)器學(xué)習(xí)能夠協(xié)同實(shí)際系統(tǒng)中分布在不同節(jié)點(diǎn)的數(shù)據(jù)和資源,通過(guò)節(jié)點(diǎn)間共享學(xué)習(xí)中間變量(如模型參數(shù))進(jìn)行模型訓(xùn)練。該技術(shù)具有去中心化的特性,一定程度上避免了數(shù)據(jù)集中存儲(chǔ)帶來(lái)的隱私風(fēng)險(xiǎn),是目前面向隱私保護(hù)的主流機(jī)器學(xué)習(xí)方法。但是,隨著研究深入,分布式機(jī)器學(xué)習(xí)也遇到了諸多挑戰(zhàn)。當(dāng)前分布式機(jī)器學(xué)習(xí)框架是利用各個(gè)節(jié)點(diǎn)數(shù)據(jù)分散性來(lái)實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)。節(jié)點(diǎn)原始數(shù)據(jù)的隱私與學(xué)習(xí)中共享變量具有高度相關(guān)性,已有研究工作證明了隱私數(shù)據(jù)能從共享的變量中被成功解碼。因此,如何構(gòu)建全過(guò)程與各環(huán)節(jié)隱私保護(hù)的分布式機(jī)器學(xué)習(xí)框架是當(dāng)前數(shù)據(jù)安全領(lǐng)域的基礎(chǔ)前沿課題。
然而,數(shù)據(jù)安全與處理效率之間的矛盾是一項(xiàng)永恒課題,隨著分布式機(jī)器學(xué)習(xí)中的隱私保護(hù)增強(qiáng),勢(shì)必影響到機(jī)器學(xué)習(xí)的效率和效果,特別是在大規(guī)模參數(shù)模型的訓(xùn)練中,該矛盾尤其突出。一方面,機(jī)器學(xué)習(xí)模型規(guī)模增大,以及各個(gè)環(huán)節(jié)的隱私保護(hù)增強(qiáng),節(jié)點(diǎn)間共享變量的通信資源和計(jì)算資源開(kāi)銷(xiāo)將成指數(shù)增加,成為制約大模型學(xué)習(xí)中一個(gè)主要瓶頸問(wèn)題。另一方面,對(duì)于一些復(fù)雜原始數(shù)據(jù),例如,強(qiáng)相關(guān)的圖數(shù)據(jù)等,這些高度關(guān)聯(lián)的原始數(shù)據(jù)分散在分布式學(xué)習(xí)框架中不同節(jié)點(diǎn),通過(guò)分散數(shù)據(jù)的“去關(guān)聯(lián)性”能實(shí)現(xiàn)隱私保護(hù),但也損失了這些數(shù)據(jù)間的大量關(guān)聯(lián)信息,極大降低了機(jī)器學(xué)習(xí)效果效率?,F(xiàn)有方法假設(shè)了節(jié)點(diǎn)具有獨(dú)立完備的數(shù)據(jù)并基于其內(nèi)部特征進(jìn)行學(xué)習(xí),難以對(duì)跨節(jié)點(diǎn)間的強(qiáng)關(guān)聯(lián)數(shù)據(jù)進(jìn)行有效建模。如何解決圖數(shù)據(jù)的“內(nèi)生強(qiáng)關(guān)聯(lián)性”與面向隱私保護(hù)的分布式學(xué)習(xí)“去關(guān)聯(lián)性”之間的矛盾,提升強(qiáng)關(guān)聯(lián)數(shù)據(jù)學(xué)習(xí)效果是一項(xiàng)具有高度挑戰(zhàn)性的課題。

圖1. 分布式機(jī)器學(xué)習(xí)隱私安全研究的系統(tǒng)性架構(gòu)
針對(duì)面向隱私保護(hù)分布式機(jī)器學(xué)習(xí)中存在的前沿課題,清華大學(xué)電子系開(kāi)源數(shù)據(jù)認(rèn)知?jiǎng)?chuàng)新中心的研究團(tuán)隊(duì)開(kāi)展了系統(tǒng)研究工作(研究的系統(tǒng)性架構(gòu)如圖1所示),取得了階段性進(jìn)展。研究團(tuán)隊(duì)創(chuàng)建了一套隱私增強(qiáng)分布式機(jī)器學(xué)習(xí)模型(方法如圖2所示)。該模型采用差分隱私知識(shí)遷移的協(xié)同學(xué)習(xí)框架,實(shí)現(xiàn)分布式學(xué)習(xí)過(guò)程中“全過(guò)程”隱私保護(hù),同時(shí),提出了一種隱私安全可證明的模型有效訓(xùn)練方法,該方法攻克了在現(xiàn)有分布式機(jī)器學(xué)習(xí)模型直接應(yīng)用差分隱私時(shí)學(xué)習(xí)效果斷崖式下降的難題。在為分布式學(xué)習(xí)過(guò)程提供了有效、可證明的隱私安全保護(hù)的同時(shí),最高提升了現(xiàn)有隱私保護(hù)機(jī)器學(xué)習(xí)方法84.2%的性能。針對(duì)分布式機(jī)器學(xué)習(xí)存在的“隱私性增強(qiáng)”與“模型學(xué)習(xí)效率”之間矛盾所帶來(lái)的模型規(guī)模瓶頸問(wèn)題,研究團(tuán)隊(duì)創(chuàng)建了一套面向隱私增強(qiáng)分布式架構(gòu)高效模型訓(xùn)練方法(方法如圖3所示)。在隱私增強(qiáng)的分布式學(xué)習(xí)模型的基礎(chǔ)上,制定了一套基于“門(mén)徒效應(yīng)”的雙向知識(shí)蒸餾技術(shù),提出了一套基于互學(xué)習(xí)約束的模型知識(shí)自適應(yīng)壓縮方法,突破了在增強(qiáng)隱私保護(hù)的機(jī)器學(xué)習(xí)過(guò)程中知識(shí)共享的效率瓶頸。實(shí)驗(yàn)結(jié)果證明,在大規(guī)模隱私增強(qiáng)的分布式學(xué)習(xí)模型中,該方法能將復(fù)雜模型的訓(xùn)練效率提升20倍。針對(duì)圖數(shù)據(jù)分布式學(xué)習(xí)中存在的“強(qiáng)關(guān)聯(lián)”與“去關(guān)聯(lián)”之間的矛盾,研究團(tuán)隊(duì)提出了一套面向隱私增強(qiáng)分布式架構(gòu)的復(fù)雜數(shù)據(jù)學(xué)習(xí)方法(方法如圖4所示)。通過(guò)建立一種面向增強(qiáng)隱私保護(hù)的關(guān)聯(lián)模型學(xué)習(xí)方法來(lái)實(shí)現(xiàn)“強(qiáng)關(guān)聯(lián)性”圖數(shù)據(jù)分布在各個(gè)節(jié)點(diǎn)“去關(guān)聯(lián)”,同時(shí),采用數(shù)據(jù)擴(kuò)張機(jī)制來(lái)建??绻?jié)點(diǎn)間數(shù)據(jù)的高階關(guān)聯(lián)信息。通過(guò)實(shí)際場(chǎng)景數(shù)據(jù)的實(shí)驗(yàn)證明,該框架能夠有效挖掘分布式圖數(shù)據(jù)間的關(guān)聯(lián),達(dá)到在沒(méi)有隱私保護(hù)限制下最優(yōu)關(guān)聯(lián)建模效果的98.2%。

圖2. 基于差分隱私知識(shí)遷移的分布式學(xué)習(xí)框架

圖3. 基于雙向知識(shí)蒸餾的高效分布式學(xué)習(xí)方法

圖4. 基于數(shù)據(jù)擴(kuò)張機(jī)制的圖數(shù)據(jù)分布式學(xué)習(xí)方法
研究團(tuán)隊(duì)對(duì)面向隱私安全的分布式機(jī)器學(xué)習(xí)理論模型和關(guān)鍵技術(shù)開(kāi)展系統(tǒng)性創(chuàng)新研究的同時(shí),也在積極開(kāi)展相關(guān)模型和方法在實(shí)際場(chǎng)景下的應(yīng)用研究,先后在網(wǎng)絡(luò)信息智能推薦、公共安全、智慧醫(yī)療等領(lǐng)域建立了相應(yīng)數(shù)據(jù)隱私保護(hù)方案,解決了數(shù)據(jù)安全領(lǐng)域的國(guó)家和企業(yè)“急難盼”問(wèn)題。相關(guān)研究成果在2022-2023年度發(fā)表了4篇《自然》(Nature)子刊論文,其中1篇論文入選《自然·通訊》(Nature Communications)期刊的亮點(diǎn)論文(Featured Articles,如圖5所示)。
上述研究成果是在電子系開(kāi)源數(shù)據(jù)認(rèn)知?jiǎng)?chuàng)新中心的NGNLab研究團(tuán)隊(duì)黃永峰教授帶領(lǐng)下,由張衛(wèi)強(qiáng)、何亮副教授,博士生齊濤、武楚涵等骨干成員,聯(lián)合微軟亞洲研究院相關(guān)合作研究人員共同完成。研究成果也得到了科技部重點(diǎn)研發(fā)專(zhuān)項(xiàng)“網(wǎng)絡(luò)大數(shù)據(jù)安全防護(hù)理論與方法”,國(guó)家自然科學(xué)基金委聯(lián)合重點(diǎn)項(xiàng)目“云數(shù)據(jù)安全審計(jì)理論與新方法”和國(guó)家自然科學(xué)基金委重大項(xiàng)目“基于全維度數(shù)據(jù)的智能診療研究”等的支持。

圖5. 團(tuán)隊(duì)成果入選《自然·通訊》(Nature Communications)亮點(diǎn)論文
論文鏈接:
https://www.nature.com/articles/s41467-023-38794-x
https://www.nature.com/articles/s41467-022-29763-x
https://www.nature.com/articles/s41467-022-30714-9
https://www.nature.com/articles/s41599-022-01473-1
供稿:電子系
題圖設(shè)計(jì):曾儀
編輯:李華山
審核:郭玲