清華新聞網(wǎng)11月15日電 近日,清華大學(xué)交叉信息研究院高陽(yáng)研究組在強(qiáng)化學(xué)習(xí)領(lǐng)域中取得突破,研究組所提出的模型EfficientZero首次在雅達(dá)利(Atari)游戲數(shù)據(jù)上超過(guò)同等游戲時(shí)長(zhǎng)的人類(lèi)平均水平。EfficientZero的高效率學(xué)習(xí)能力為強(qiáng)化學(xué)習(xí)算法應(yīng)用到現(xiàn)實(shí)世界場(chǎng)景提供了更大可能。

EfficientZero在A(yíng)tari 100k(2h環(huán)境數(shù)據(jù))基準(zhǔn)下與其他算法結(jié)果對(duì)比
該研究成果一經(jīng)公開(kāi),便在學(xué)術(shù)圈引發(fā)關(guān)注和熱議,收獲大量好評(píng)。另有科技方向的博主做了半小時(shí)的視頻講解此文,短短兩天即有上萬(wàn)人次觀(guān)看。

網(wǎng)友在Twitter上的轉(zhuǎn)發(fā)以及在YouTube上的講解視頻
雅達(dá)利游戲是目前強(qiáng)化學(xué)習(xí)領(lǐng)域最常用的性能測(cè)試標(biāo)準(zhǔn)之一,它包含豐富的游戲場(chǎng)景,且各個(gè)游戲規(guī)則各異。在2015年,Deep Mind團(tuán)隊(duì)提出算法DQN,通過(guò)200M幀訓(xùn)練數(shù)據(jù),在雅達(dá)利游戲上達(dá)到了人類(lèi)平均水平。
然而EfficientZero達(dá)到同等水平僅僅需要DQN需求數(shù)據(jù)量的1/500。而低樣本效率是限制強(qiáng)化學(xué)習(xí)算法應(yīng)用于真實(shí)場(chǎng)景的障礙之一,這是因?yàn)樵谡鎸?shí)場(chǎng)景中,實(shí)驗(yàn)人員無(wú)法像在模擬場(chǎng)景中獲取大量數(shù)據(jù)用于訓(xùn)練模型。這表明EfficientZero的高樣本效率與高性能能夠讓強(qiáng)化學(xué)習(xí)算法更加貼近真實(shí)應(yīng)用的場(chǎng)景,為強(qiáng)化學(xué)習(xí)算法能夠落地提供了更大的可能性。

部分雅達(dá)利游戲展示
EfficientZero是一種基于模型的算法,基于此前的MuZero模型,這類(lèi)模型一方面通過(guò)收集的數(shù)據(jù)來(lái)學(xué)習(xí)環(huán)境模型,從而能夠預(yù)測(cè)環(huán)境的變化,另一方面利用所學(xué)出的模型預(yù)測(cè)未來(lái)的軌跡和所得回報(bào),通過(guò)MCTS進(jìn)行規(guī)劃,從而在少量訓(xùn)練數(shù)據(jù)情況下能夠達(dá)到較高的性能。EfficientZero提出了三點(diǎn)改進(jìn):時(shí)序一致性,預(yù)測(cè)階段回報(bào),修正目標(biāo)價(jià)值。其中時(shí)序一致性的實(shí)現(xiàn)是通過(guò)計(jì)算機(jī)視覺(jué)領(lǐng)域中的對(duì)比學(xué)習(xí)算法SimSiam實(shí)現(xiàn)的,這使得狀態(tài)轉(zhuǎn)移模型所預(yù)測(cè)的下一步狀態(tài)靠近真實(shí)軌跡的下一步狀態(tài),從而促進(jìn)狀態(tài)轉(zhuǎn)移模型的學(xué)習(xí)。
研究提出,在訓(xùn)練過(guò)程中有些狀態(tài)的回報(bào)是很難預(yù)測(cè)的,因此預(yù)測(cè)每步狀態(tài)的回報(bào)會(huì)有較高的不確定性,但是預(yù)測(cè)階段的回報(bào)相對(duì)來(lái)說(shuō)更加平滑,從而減少這種不確定性。研究組通過(guò)更改目標(biāo)價(jià)值函數(shù)實(shí)現(xiàn)離線(xiàn)策略?xún)r(jià)值函數(shù)的糾正。此外,EfficientZero還在部分模擬機(jī)器人控制環(huán)境DMControl中進(jìn)行了實(shí)驗(yàn),并取得了目前最佳性能,這也進(jìn)一步表明EfficientZero在更復(fù)雜的模擬環(huán)境情形下仍然能維持高樣本效率和高性能。
該成果的研究論文“用有限的數(shù)據(jù)玩轉(zhuǎn)雅達(dá)利游戲”(Mastering Atari Games with Limited Data)被2021年神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)(NeurIPS 2021)接收。該論文的第一作者為交叉信息研究院2020級(jí)博士生葉葳蕤,通訊作者為高陽(yáng)助理教授。其他作者包括加美國(guó)加州大學(xué)伯克利分校教授彼得·阿貝爾(Pieter Abbeel)、交叉信息研究院2020級(jí)碩士生劉紹淮以及加州大學(xué)伯克利分校博士生塔納德·庫(kù)魯塔赫(Thanard Kurutach)。
供稿:交叉信息研究院
編輯:李華山
審核:呂婷