太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

<samp id="66666"><tr id="66666"></tr></samp>

<samp id="66666"><tr id="66666"></tr></samp><samp id="66666"><tr id="66666"></tr></samp>

<pre id="66666"><sup id="66666"></sup></pre>

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

交叉信息研究院高陽(yáng)課題組在強(qiáng)化學(xué)習(xí)領(lǐng)域取得新突破

分享

清華新聞網(wǎng)11月15日電 近日，清華大學(xué)交叉信息研究院高陽(yáng)研究組在強(qiáng)化學(xué)習(xí)領(lǐng)域中取得突破，研究組所提出的模型EfficientZero首次在雅達(dá)利（Atari）游戲數(shù)據(jù)上超過(guò)同等游戲時(shí)長(zhǎng)的人類(lèi)平均水平。EfficientZero的高效率學(xué)習(xí)能力為強(qiáng)化學(xué)習(xí)算法應(yīng)用到現(xiàn)實(shí)世界場(chǎng)景提供了更大可能。

EfficientZero在A(yíng)tari 100k（2h環(huán)境數(shù)據(jù)）基準(zhǔn)下與其他算法結(jié)果對(duì)比

該研究成果一經(jīng)公開(kāi)，便在學(xué)術(shù)圈引發(fā)關(guān)注和熱議，收獲大量好評(píng)。另有科技方向的博主做了半小時(shí)的視頻講解此文，短短兩天即有上萬(wàn)人次觀(guān)看。

網(wǎng)友在Twitter上的轉(zhuǎn)發(fā)以及在YouTube上的講解視頻

雅達(dá)利游戲是目前強(qiáng)化學(xué)習(xí)領(lǐng)域最常用的性能測(cè)試標(biāo)準(zhǔn)之一，它包含豐富的游戲場(chǎng)景，且各個(gè)游戲規(guī)則各異。在2015年，Deep Mind團(tuán)隊(duì)提出算法DQN，通過(guò)200M幀訓(xùn)練數(shù)據(jù)，在雅達(dá)利游戲上達(dá)到了人類(lèi)平均水平。

然而EfficientZero達(dá)到同等水平僅僅需要DQN需求數(shù)據(jù)量的1/500。而低樣本效率是限制強(qiáng)化學(xué)習(xí)算法應(yīng)用于真實(shí)場(chǎng)景的障礙之一，這是因?yàn)樵谡鎸?shí)場(chǎng)景中，實(shí)驗(yàn)人員無(wú)法像在模擬場(chǎng)景中獲取大量數(shù)據(jù)用于訓(xùn)練模型。這表明EfficientZero的高樣本效率與高性能能夠讓強(qiáng)化學(xué)習(xí)算法更加貼近真實(shí)應(yīng)用的場(chǎng)景，為強(qiáng)化學(xué)習(xí)算法能夠落地提供了更大的可能性。

部分雅達(dá)利游戲展示

EfficientZero是一種基于模型的算法，基于此前的MuZero模型，這類(lèi)模型一方面通過(guò)收集的數(shù)據(jù)來(lái)學(xué)習(xí)環(huán)境模型，從而能夠預(yù)測(cè)環(huán)境的變化，另一方面利用所學(xué)出的模型預(yù)測(cè)未來(lái)的軌跡和所得回報(bào)，通過(guò)MCTS進(jìn)行規(guī)劃，從而在少量訓(xùn)練數(shù)據(jù)情況下能夠達(dá)到較高的性能。EfficientZero提出了三點(diǎn)改進(jìn)：時(shí)序一致性，預(yù)測(cè)階段回報(bào)，修正目標(biāo)價(jià)值。其中時(shí)序一致性的實(shí)現(xiàn)是通過(guò)計(jì)算機(jī)視覺(jué)領(lǐng)域中的對(duì)比學(xué)習(xí)算法SimSiam實(shí)現(xiàn)的，這使得狀態(tài)轉(zhuǎn)移模型所預(yù)測(cè)的下一步狀態(tài)靠近真實(shí)軌跡的下一步狀態(tài)，從而促進(jìn)狀態(tài)轉(zhuǎn)移模型的學(xué)習(xí)。

研究提出，在訓(xùn)練過(guò)程中有些狀態(tài)的回報(bào)是很難預(yù)測(cè)的，因此預(yù)測(cè)每步狀態(tài)的回報(bào)會(huì)有較高的不確定性，但是預(yù)測(cè)階段的回報(bào)相對(duì)來(lái)說(shuō)更加平滑，從而減少這種不確定性。研究組通過(guò)更改目標(biāo)價(jià)值函數(shù)實(shí)現(xiàn)離線(xiàn)策略?xún)r(jià)值函數(shù)的糾正。此外，EfficientZero還在部分模擬機(jī)器人控制環(huán)境DMControl中進(jìn)行了實(shí)驗(yàn)，并取得了目前最佳性能，這也進(jìn)一步表明EfficientZero在更復(fù)雜的模擬環(huán)境情形下仍然能維持高樣本效率和高性能。

該成果的研究論文“用有限的數(shù)據(jù)玩轉(zhuǎn)雅達(dá)利游戲”（Mastering Atari Games with Limited Data）被2021年神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)（NeurIPS 2021）接收。該論文的第一作者為交叉信息研究院2020級(jí)博士生葉葳蕤，通訊作者為高陽(yáng)助理教授。其他作者包括加美國(guó)加州大學(xué)伯克利分校教授彼得·阿貝爾（Pieter Abbeel）、交叉信息研究院2020級(jí)碩士生劉紹淮以及加州大學(xué)伯克利分校博士生塔納德·庫(kù)魯塔赫（Thanard Kurutach）。

供稿：交叉信息研究院

編輯：李華山

審核：呂婷

2021年11月15日 16:45:40

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.

<table id="66666"></table>

<option id="66666"><s id="66666"></s></option>

<kbd id="66666"><sup id="66666"></sup></kbd>

<tfoot id="66666"></tfoot>

<kbd id="66666"></kbd>