太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

車(chē)輛學(xué)院團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)領(lǐng)域取得重要進(jìn)展

清華新聞網(wǎng)5月19日電 近日,清華大學(xué)車(chē)輛與運(yùn)載學(xué)院李克強(qiáng)院士、李升波教授團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)領(lǐng)域取得重要進(jìn)展。團(tuán)隊(duì)針對(duì)工業(yè)對(duì)象的智能決策與控制需求,推出了DSAC(Distributional Soft Actor Critic)系列強(qiáng)化學(xué)習(xí)算法,解決了已有方法值函數(shù)學(xué)習(xí)不準(zhǔn)、策略性能低下的難題,并于典型基準(zhǔn)測(cè)試任務(wù)中取得了國(guó)際領(lǐng)先的SOTA性能。第一代DSAC算法發(fā)表于《IEEE神經(jīng)網(wǎng)絡(luò)與學(xué)習(xí)系統(tǒng)匯刊》(IEEE Transactions on Neural Networks and Learning Systems(2022),第二代發(fā)表于《IEEE模式分析與機(jī)器智能匯刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence(2025)。

強(qiáng)化學(xué)習(xí)在具身智能控制(如自動(dòng)駕駛、機(jī)器人等)任務(wù)中展現(xiàn)出巨大潛力,但主流方法長(zhǎng)期面臨“值函數(shù)過(guò)估計(jì)”難題。簡(jiǎn)而言之,貝爾曼方程的迭代求解過(guò)程中,因?yàn)樽畲蠡阕拥拇嬖?,易造成值函?shù)(即性能衡量指標(biāo))誤差向單一方向持續(xù)累積,導(dǎo)致策略學(xué)習(xí)嚴(yán)重偏離最優(yōu)解。該問(wèn)題最早在1993年由斯坦福大學(xué)的學(xué)者從算法實(shí)驗(yàn)中發(fā)現(xiàn),進(jìn)入深度強(qiáng)化學(xué)習(xí)階段之后,因神經(jīng)網(wǎng)絡(luò)擬合速度慢以及固有訓(xùn)練誤差的存在,導(dǎo)致過(guò)估計(jì)問(wèn)題更加嚴(yán)峻。自2010年開(kāi)始,Deepmind、麥吉爾大學(xué)的科學(xué)家先后提出了Double Q-learning、Clipped Double-Q等一系列措施,嘗試使用雙函數(shù)互相矯正的思想解決單一函數(shù)的計(jì)算誤差。這些措施雖然在一定程度上抑制了值函數(shù)的過(guò)估計(jì)問(wèn)題,但是對(duì)于高維非線(xiàn)性任務(wù),仍面臨值函數(shù)學(xué)習(xí)不準(zhǔn)、策略性能低下的瓶頸難題。

圖1.DSAC算法核心架構(gòu)和關(guān)鍵技術(shù)

自2019年開(kāi)始,車(chē)輛學(xué)院研究團(tuán)隊(duì)聚焦“如何提高強(qiáng)化學(xué)習(xí)算法性能”這一問(wèn)題開(kāi)展攻關(guān)。首次發(fā)現(xiàn)了值分布函數(shù)(distributional value function)的估計(jì)偏差調(diào)節(jié)機(jī)制,證明了過(guò)估計(jì)偏差與值分布方差呈反比的結(jié)論。團(tuán)隊(duì)將這一機(jī)制與最大熵框架結(jié)合,把策略?xún)?yōu)化目標(biāo)的刻畫(huà)從單一維度擴(kuò)展為無(wú)窮維度,以此為基礎(chǔ)提出了第一代DSAC算法,極大提升了復(fù)雜工業(yè)控制任務(wù)的學(xué)習(xí)性能。為進(jìn)一步改進(jìn)該算法的迭代穩(wěn)定性,并降低參數(shù)敏感度,團(tuán)隊(duì)提出了三項(xiàng)全新的值分布梯度修正技術(shù),即Expected Value Substituting(EVS)、Twin Value Distribution Learning(TVDL)和Variance-Based Critic Gradient Adjustment(VCGA),并將其嵌入到第二代DSAC算法中(又稱(chēng)為DSAC-T)。EVS的原理是在訓(xùn)練值分布網(wǎng)絡(luò)時(shí)以期望目標(biāo)值替代單次隨機(jī)樣本,顯著降低梯度方差,提高學(xué)習(xí)穩(wěn)定性。TVDL的原理是并行訓(xùn)練兩個(gè)獨(dú)立值分布網(wǎng)絡(luò),借鑒Double Q-learning的思路,在更新時(shí)選取更保守的一方,進(jìn)一步抑制過(guò)估計(jì)誤差。VCGA的原理是根據(jù)值分布方差自適應(yīng)縮放值分布函數(shù)更新梯度,使算法在不同任務(wù)和參數(shù)設(shè)定下都能保持穩(wěn)定且一致的性能。標(biāo)準(zhǔn)測(cè)試環(huán)境的實(shí)驗(yàn)表明,DSAC算法的綜合表現(xiàn)全面超越SAC(UC Berkeley)、TD3(McGill)、DDPG(DeepMind)、TRPO(UC Berkeley)、PPO(OpenAI)等主流強(qiáng)化學(xué)習(xí)算法。

圖2.典型任務(wù)的性能對(duì)比

目前,研究團(tuán)隊(duì)已將DSAC兩代算法進(jìn)行了開(kāi)源,并集成于自主研發(fā)的GOPS工具鏈,以方便學(xué)術(shù)界與工業(yè)界驗(yàn)證與使用。該算法已應(yīng)用于端到端自動(dòng)駕駛、具身智能機(jī)器人、工程機(jī)械無(wú)人作業(yè)等領(lǐng)域的模型訓(xùn)練,與滴滴、廣汽、東風(fēng)、一汽、寶武等龍頭企業(yè)開(kāi)展產(chǎn)業(yè)應(yīng)用服務(wù)。該項(xiàng)目得到國(guó)家“十四五”重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、北京市自然科學(xué)基金及清華大學(xué)自主科研計(jì)劃的資助。

兩篇論文以及代碼開(kāi)源鏈接:

1.第二代DSAC算法的論文網(wǎng)址:https://ieeexplore.ieee.org/document/10858686

2.第一代DSAC算法的論文網(wǎng)址:https://ieeexplore.ieee.org/document/9448360

3. 代碼開(kāi)源鏈接:

DSAC開(kāi)源鏈接:https://github.com/Jingliang-Duan/DSAC-v2

GOPS開(kāi)源鏈接:https://gops.readthedocs.io/ 

供稿:車(chē)輛學(xué)院

編輯:李華山

審核:郭玲

2025年05月19日 08:34:28

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.