清華新聞網(wǎng)3月24日電 隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,交通系統(tǒng)正面臨著前所未有的革命。過(guò)去20年里,自動(dòng)駕駛技術(shù)取得了巨大進(jìn)步,然而截至目前,L4級(jí)別自動(dòng)駕駛汽車(chē)尚未實(shí)現(xiàn)商業(yè)化落地。造成這種情況的原因有很多,最重要的是自動(dòng)駕駛汽車(chē)的安全性能仍未能達(dá)到大規(guī)模落地應(yīng)用的要求,而自動(dòng)駕駛汽車(chē)安全性測(cè)試的低效率難題成為了阻礙安全性提升的關(guān)鍵障礙。據(jù)測(cè)算,要可靠地測(cè)試評(píng)估高水平自動(dòng)駕駛汽車(chē)的安全性能,需要完成數(shù)百億公里的測(cè)試?yán)锍?,這嚴(yán)重滯緩了自動(dòng)駕駛汽車(chē)測(cè)試研發(fā)的迭代過(guò)程。
為解決這一問(wèn)題,清華大學(xué)自動(dòng)化系智能交通研究團(tuán)隊(duì)封碩助理教授與美國(guó)密西根大學(xué)Mcity主任劉向宏(Henry Liu)教授等科研人員合作提出了基于密集強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車(chē)加速測(cè)試方法,通過(guò)密集學(xué)習(xí)生成了專(zhuān)注安全關(guān)鍵場(chǎng)景的智能測(cè)試環(huán)境,解決了自動(dòng)駕駛所面臨的“稀疏度災(zāi)難”全新挑戰(zhàn),實(shí)現(xiàn)了只需智能測(cè)試環(huán)境中的少量測(cè)試?yán)锍碳纯傻刃в谧匀粶y(cè)試環(huán)境中的海量測(cè)試?yán)锍?,加速了自?dòng)駕駛汽車(chē)安全性測(cè)試評(píng)估過(guò)程103~105倍。
具體而言,自動(dòng)駕駛汽車(chē)安全性測(cè)試問(wèn)題的本質(zhì)是超高維空間小概率事件期望估計(jì)問(wèn)題,其核心挑戰(zhàn)來(lái)自“維度災(zāi)難”和“稀疏度災(zāi)難”的復(fù)合效應(yīng)?!熬S度災(zāi)難”是指駕駛環(huán)境的時(shí)空復(fù)雜性導(dǎo)致環(huán)境變量超高維,使得算法計(jì)算復(fù)雜度指數(shù)增加;而“稀疏度災(zāi)難”是指安全關(guān)鍵事件的稀疏性使得變量空間中的多數(shù)樣本無(wú)法為學(xué)習(xí)提供有效信息,導(dǎo)致了傳統(tǒng)學(xué)習(xí)方法的失效。面對(duì)上述挑戰(zhàn),研究提出了密集強(qiáng)化學(xué)習(xí)方法(Dense Deep Reinforcement Learning,D2RL),通過(guò)識(shí)別和刪除非安全關(guān)鍵狀態(tài)、連接安全關(guān)鍵狀態(tài),并在編輯后的馬爾科夫過(guò)程中訓(xùn)練神經(jīng)網(wǎng)絡(luò),解決了上述“稀疏度災(zāi)難”(圖1)。利用密集強(qiáng)化學(xué)習(xí)方法訓(xùn)練交通環(huán)境中背景車(chē)輛使其學(xué)習(xí)何時(shí)執(zhí)行何種對(duì)抗性策略,可以構(gòu)建一個(gè)智能測(cè)試環(huán)境,減少所需測(cè)試?yán)锍潭鄠€(gè)數(shù)量級(jí),同時(shí)確保測(cè)試結(jié)果等效性?;谠鰪?qiáng)現(xiàn)實(shí)測(cè)試平臺(tái),研究團(tuán)隊(duì)在美國(guó)密西根大學(xué)Mcity和美國(guó)交通中心的測(cè)試場(chǎng)中使用上述方法對(duì)L4級(jí)自動(dòng)駕駛汽車(chē)進(jìn)行了安全性測(cè)試(圖2)。結(jié)果表明上述方法可以有效學(xué)習(xí)生成智能測(cè)試環(huán)境,與直接在自然駕駛環(huán)境中測(cè)試自動(dòng)駕駛汽車(chē)相比,智能測(cè)試環(huán)境可以加快評(píng)估過(guò)程多個(gè)數(shù)量級(jí)(約103~105)。

圖1.密集學(xué)習(xí)方法通過(guò)刪除非關(guān)鍵狀態(tài)、連接關(guān)鍵狀態(tài)來(lái)編輯馬爾可夫過(guò)程,然后通過(guò)編輯后的馬爾可夫過(guò)程訓(xùn)練神經(jīng)網(wǎng)絡(luò)

圖2.增強(qiáng)現(xiàn)實(shí)測(cè)試平臺(tái)可以通過(guò)虛擬背景車(chē)輛增強(qiáng)現(xiàn)實(shí)世界,為自動(dòng)駕駛汽車(chē)提供更安全、更可控、更高效的測(cè)試環(huán)境
近日,相關(guān)研究成果以“基于密集強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車(chē)安全性測(cè)試”(Dense Reinforcement Learning for Safety Validation of Autonomous Vehicles)為題發(fā)表在《自然》(Nature)正刊上,被選為該期封面論文,并獲得《自然·新聞與觀(guān)點(diǎn)》(Nature News and Views)、《自然·播客》(Nature Podcast)、《自然·視頻》(Nature Videos)等的同步報(bào)道。

圖3.《自然》(Nature)封面
該論文第一作者為清華大學(xué)自動(dòng)化系封碩助理教授,通訊作者為美國(guó)密西根大學(xué)Mcity主任劉向宏(Henry Liu)教授。其他主要合作者包括美國(guó)密西根大學(xué)孫昊葳(Haowei Sun)、嚴(yán)鑫濤(Xintao Yan)、朱昊杰(Haojie Zhu)、鄒征夏(Zhengxia Zou)和沈晟印(Shengyin Shen)。
論文鏈接:
https://www.nature.com/articles/s41586-023-05732-2
供稿:自動(dòng)化系
題圖設(shè)計(jì):李娜
編輯:李華山
審核:郭玲