太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

計(jì)算機(jī)系團(tuán)隊(duì)獲得第23屆USENIX文件與存儲(chǔ)技術(shù)會(huì)議（FAST25）最佳論文獎(jiǎng)

分享

清華新聞網(wǎng)3月10日電 2月25日至27日，第23屆USENIX文件與存儲(chǔ)技術(shù)會(huì)議（USENIX Conference on File and Storage Technologies,FAST）在美國(guó)圣克拉拉舉行。計(jì)算機(jī)系教師章明星、武永衛(wèi)、鄭緯民團(tuán)隊(duì)和月之暗面公司合作發(fā)表的論文“以鍵值緩存為中心的以存換算大語(yǔ)言模型推理架構(gòu)”（Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot）獲得埃里克·里德?tīng)栕罴颜撐莫?jiǎng)（Erik Riedel Best Paper Award）。論文的第一作者為計(jì)算機(jī)系博士生秦若愚，導(dǎo)師為助理教授章明星。

20250307-計(jì)算機(jī)系研究團(tuán)隊(duì)榮獲FAST 2025最佳論文獎(jiǎng)-章明星-大會(huì)現(xiàn)場(chǎng)頒發(fā)最佳論文獎(jiǎng).jpg

最佳論文獎(jiǎng)

該論文提出的系統(tǒng)Mooncake是月之暗面公司推出的大語(yǔ)言模型服務(wù)Kimi的底層推理服務(wù)平臺(tái)。Mooncake采用了一種以鍵值緩存（KVCache）為中心的分離架構(gòu)，不僅將預(yù)填充和解碼集群分離，還高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC資源，構(gòu)建了一個(gè)獨(dú)立的KVCache緩存池。其核心創(chuàng)新在于以KVCache為中心的全局緩存和調(diào)度器，旨在嚴(yán)格延遲相關(guān)服務(wù)級(jí)別目標(biāo)（SLOs）下最大化吞吐量。

實(shí)驗(yàn)結(jié)果顯示，Mooncake在處理長(zhǎng)上下文輸入的場(chǎng)景中表現(xiàn)出色。在使用真實(shí)數(shù)據(jù)進(jìn)行的測(cè)試中，與基線(xiàn)方法相比，Mooncake在符合SLOs的情況下，將有效請(qǐng)求處理能力提升了59%至498%。目前，Mooncake已在數(shù)千個(gè)節(jié)點(diǎn)上運(yùn)行，每日處理超過(guò)1000億個(gè)token。在實(shí)際部署中，Mooncake的創(chuàng)新架構(gòu)使Kimi在NVIDIA A800和H800集群上分別比以前的系統(tǒng)多處理115%和107%的請(qǐng)求。

FAST（File and Storage Technologies）是計(jì)算機(jī)存儲(chǔ)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議，已創(chuàng)立二十余年，在存儲(chǔ)領(lǐng)域具有重要影響力，被中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）認(rèn)定為存儲(chǔ)系統(tǒng)領(lǐng)域的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議。

供稿：計(jì)算機(jī)系

編輯：彭穩(wěn)平

審核：郭玲

2025年03月10日 14:00:26

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.