清華新聞網(wǎng)4月16日電 近日,交叉信息研究院2018級(jí)在讀碩士生劉俊林、陳奕熹和交叉信息研究院助理教授吳文斐等作者合作完成的論文《ATP:面向多租戶(hù)的深度學(xué)習(xí)訓(xùn)練聚合傳輸協(xié)議》(ATP: Innetwork Aggregation for Multitenant Learning)獲得第18屆USENIX網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)年會(huì)(Symposium on Network System Design and Implementation)最佳論文獎(jiǎng)。這是清華大學(xué)首次以第一作者單位獲得該會(huì)議的最佳論文獎(jiǎng),亦是中國(guó)高校(含港澳臺(tái)地區(qū))首次在該會(huì)議取得最佳論文獎(jiǎng)。
隨著機(jī)器學(xué)習(xí)數(shù)據(jù)量和模型規(guī)模的擴(kuò)大以及其應(yīng)用場(chǎng)景的擴(kuò)展(例如聯(lián)邦學(xué)習(xí)),機(jī)器學(xué)習(xí)系統(tǒng)逐步以分布式的方式來(lái)部署和實(shí)現(xiàn),尤其是在數(shù)據(jù)中心或多租戶(hù)多訓(xùn)練工作同步進(jìn)行的私有集群場(chǎng)景。研究指出,部分訓(xùn)練工作的網(wǎng)絡(luò)傳輸時(shí)長(zhǎng)占訓(xùn)練時(shí)間的比例愈來(lái)愈高,甚至已經(jīng)成為瓶頸,制約著分布式學(xué)習(xí)系統(tǒng)的整體效率。與此同時(shí),通過(guò)對(duì)分布式學(xué)習(xí)訓(xùn)練的研究,文章作者注意到分布式訓(xùn)練的網(wǎng)絡(luò)傳輸部分有著可以?xún)?yōu)化的流量模式,再通過(guò)與可編程網(wǎng)絡(luò)的共同設(shè)計(jì),提出了ATP系統(tǒng)。

ATP聚合過(guò)程圖示
ATP是一套面向于多租戶(hù)多機(jī)架場(chǎng)景的機(jī)器學(xué)習(xí)訓(xùn)練加速協(xié)議,利用可編程交換機(jī)技術(shù)對(duì)分布式訓(xùn)練的網(wǎng)絡(luò)傳輸部分進(jìn)行聚合優(yōu)化,建立了一套由終端主機(jī)網(wǎng)絡(luò)協(xié)議棧和可編程交換機(jī)共同交互組成的高速分布式訓(xùn)練協(xié)議,在網(wǎng)絡(luò)中提供盡力服務(wù)(best-effort)及資源動(dòng)態(tài)分配(dynamic)的聚合語(yǔ)義,并考慮了多租戶(hù)場(chǎng)景下的競(jìng)爭(zhēng)策略,重新設(shè)計(jì)了丟包恢復(fù)和擁塞控制算法。實(shí)驗(yàn)表明,ATP協(xié)議在各個(gè)不同的模型中效能超越了現(xiàn)時(shí)主流通用的分布式框架,并在競(jìng)爭(zhēng)嚴(yán)重的多租戶(hù)場(chǎng)景下維持了十分良好的效能。

ATP與不同體系結(jié)構(gòu)的訓(xùn)練效果的對(duì)比
此項(xiàng)工作由吳文斐研究組與威斯康星大學(xué)麥迪遜分校阿迪蒂亞·阿克拉教授(Aditya Akella)研究組合作完成。劉俊林為論文第一作者,吳文斐為通訊作者。

吳文斐研究組
網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(NSDI)是USENIX旗下的旗艦會(huì)議之一,也是計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)領(lǐng)域的頂級(jí)會(huì)議。NSDI側(cè)重于網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),享負(fù)盛名的大數(shù)據(jù)系統(tǒng)Spark就發(fā)表在2012年的NSDI大會(huì)上,并取得當(dāng)年的最佳論文獎(jiǎng)。本屆NSDI大會(huì)共收到369篇投稿論文,并最終接收59篇,接收率為16%,每屆NSDI大會(huì)都會(huì)評(píng)選出1篇最佳論文。
論文鏈接:
https://www.usenix.org/conference/nsdi21/presentation/lao
供稿:交叉信息院
編輯:李華山
審核:李晨暉