雷鋒網(wǎng) AI 科技評(píng)論按:相比于傳統(tǒng)方式中需要工程人員手動(dòng)設(shè)計(jì)機(jī)器人每一個(gè)動(dòng)作的精確參數(shù),AI 時(shí)代的研究人員們有了一種全自動(dòng)化的、有著廣闊前景的新學(xué)習(xí)方式:深度強(qiáng)化學(xué)習(xí)可以讓機(jī)器人從經(jīng)驗(yàn)、從與世界的互動(dòng)中直接學(xué)習(xí)行為,因?yàn)樗梢越柚ㄓ没纳窠?jīng)網(wǎng)絡(luò)表示,處理復(fù)雜的傳感器輸入。然而,許多現(xiàn)有的強(qiáng)化學(xué)習(xí)算法都需要幾天、幾周甚至更久時(shí)長(zhǎng)的真實(shí)世界數(shù)據(jù)才能收斂到比較理想的動(dòng)作。更重要的是,這樣的系統(tǒng)很難在復(fù)雜的機(jī)器人系統(tǒng)上使用(比如多足機(jī)器人),在系統(tǒng)的探索學(xué)習(xí)過程中很容易就會(huì)損傷到機(jī)器人的機(jī)械部件,同時(shí)還難以調(diào)節(jié)超參數(shù),許多安全方面的考量也可能帶來更多的限制。
近期,谷歌 AI 與 UC 伯克利大學(xué)合作研發(fā)了一種新的強(qiáng)化學(xué)習(xí)算法 Soft Actor-Critic(SAC)。這是一種穩(wěn)定、高效的深度強(qiáng)化學(xué)習(xí)算法,它高度符合機(jī)器人實(shí)驗(yàn)的需求,也就非常適合真實(shí)世界中的機(jī)器人技能學(xué)習(xí)。重點(diǎn)是,SAC 的學(xué)習(xí)效率足夠高,可以在數(shù)個(gè)小時(shí)內(nèi)學(xué)會(huì)解決真實(shí)世界的機(jī)器人問題,而且同一套超參數(shù)可以在多種不同的環(huán)境中工作。
谷歌 AI 撰寫博客介紹了 SAC 背后的一些研究工作,也介紹了相關(guān)的實(shí)驗(yàn)結(jié)果。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。另外可以參見 OpenAI 先在模擬環(huán)境中訓(xùn)練機(jī)器人,然后高效地遷移到真實(shí)機(jī)器人的研究。
在真實(shí)世界中學(xué)習(xí)機(jī)器人的要求
真實(shí)世界的機(jī)器人實(shí)驗(yàn)有著一些重大的挑戰(zhàn),比如硬件失效和人工重置會(huì)導(dǎo)致數(shù)據(jù)流經(jīng)常中斷,以及需要讓探索學(xué)習(xí)過程平滑,避免快速的機(jī)械磨損或者撞擊破壞,這都對(duì)算法理論和算法的實(shí)現(xiàn)增加了額外的限制,包括以下(但不限于):
有較高的樣本效率,以便降低學(xué)習(xí)時(shí)間;需要調(diào)節(jié)的超參數(shù)的數(shù)量盡量?。荒茉诓煌膱?chǎng)景中重復(fù)使用已經(jīng)采集到的數(shù)據(jù)(也被稱作“無策略學(xué)習(xí)”);確保探索學(xué)習(xí)過程不損壞硬件;Soft Actor-Critic
Soft Actor-Critic 是基于最大熵強(qiáng)化學(xué)習(xí)開發(fā)的,這是一種嘗試讓預(yù)期回報(bào)最大化(標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)目標(biāo)),同時(shí)也讓策略的熵最大化的框架。熵更高的策略具有更高的隨機(jī)性,從直覺上看來,這意味著最大熵強(qiáng)化學(xué)習(xí)會(huì)學(xué)習(xí)出能取得高回報(bào)的策略中具有最高隨機(jī)性的那個(gè)策略。
為什么在機(jī)器人學(xué)習(xí)中這是一件好事呢?一個(gè)明顯的原因是,為最大熵優(yōu)化的策略會(huì)更為魯棒:如果策略在訓(xùn)練過程中能夠允許高度隨機(jī)的動(dòng)作,那么它在測(cè)試時(shí)候也就更有可能可以順利地應(yīng)對(duì)預(yù)期不到的擾動(dòng)。不過更穩(wěn)妥的理由是,最大熵訓(xùn)練不僅可以提高算法對(duì)超參數(shù)的魯棒性,也可以提高它的采樣效率。
Soft Actor-Critic 會(huì)學(xué)習(xí)一個(gè)隨機(jī)策略,這個(gè)策略會(huì)把狀態(tài)映射到動(dòng)作以及一個(gè) Q 函數(shù),這個(gè) Q 函數(shù)會(huì)估計(jì)當(dāng)前策略的目標(biāo)價(jià)值,并通過逼近動(dòng)態(tài)編程優(yōu)化它們。通過這樣的方式,Soft Actor-Critic 可以讓經(jīng)過熵強(qiáng)化的回報(bào)最大化。在這個(gè)過程中,SAC 會(huì)把目標(biāo)看作一個(gè)絕對(duì)真的方法來導(dǎo)出更好的強(qiáng)化學(xué)習(xí)算法,它們的表現(xiàn)穩(wěn)定,而且有足夠高的樣本效率,可以用在真實(shí)世界的機(jī)器人應(yīng)用中。
SAC 的表現(xiàn)
研究人員們?cè)趦蓚€(gè)任務(wù)中評(píng)估了算法的表現(xiàn):1,Ghost Robotics 環(huán)境中 Minitaur 四足機(jī)器人的行走;2,用一個(gè)三指動(dòng)力爪轉(zhuǎn)動(dòng)閥門。學(xué)習(xí)行走這件事當(dāng)然是一個(gè)不小的挑戰(zhàn)了,由于機(jī)器人是欠驅(qū)動(dòng)的,所以機(jī)器人需要學(xué)會(huì)如何在四只腿之間平衡接觸力的大小,這樣才能持續(xù)往前走。未經(jīng)訓(xùn)練的策略會(huì)讓機(jī)器人失去平衡摔倒,而如果摔了太多次,最終是有可能把機(jī)器人摔壞的。樣本高效的學(xué)習(xí)在這時(shí)候也就非常關(guān)鍵。
雖然研究人員們是在平地上訓(xùn)練的機(jī)器人行走策略,但稍后的測(cè)試階段是在多種不同的地面狀況和障礙物上進(jìn)行的。理論上來說,通過 SAC 學(xué)習(xí)到的策略在測(cè)試時(shí)遇到擾動(dòng)的時(shí)候也應(yīng)當(dāng)是魯棒的。而實(shí)際上研究人員們也觀察到,通過他們的方法學(xué)習(xí)到的策略不需要任何額外的學(xué)習(xí)就可以應(yīng)對(duì)這些擾動(dòng)。
訓(xùn)練
測(cè)試 1
測(cè)試 2
測(cè)試 3
下面這個(gè)操控任務(wù)需要機(jī)械手轉(zhuǎn)動(dòng)一個(gè)類似閥門的物體,目標(biāo)是讓藍(lán)色的一面朝向右側(cè)。這個(gè)任務(wù)尤其有挑戰(zhàn)性,不僅任務(wù)的理解感知有難度,而且還需要控制這個(gè)具有 9 個(gè)自由度的機(jī)械手。為了能夠感知這個(gè)閥門,機(jī)器人必須要使用來自攝像頭的原始 RGB 圖像輸入(如圖右下角)。對(duì)于每一輪嘗試,閥門的位置都會(huì)重新設(shè)定到一個(gè)隨機(jī)角度,迫使策略學(xué)習(xí)如何根據(jù) RGB 圖像輸入感知當(dāng)前的閥門角度。
對(duì)于這兩個(gè)任務(wù),SAC 都能很快地解決:前一個(gè)四足機(jī)器人任務(wù)學(xué)了 2 個(gè)小時(shí),后一個(gè)觀察圖像、轉(zhuǎn)動(dòng)閥門的任務(wù)學(xué)習(xí)了 20 個(gè)小時(shí)。研究人員們也為轉(zhuǎn)動(dòng)閥門任務(wù)學(xué)習(xí)了一個(gè)無需圖像輸入的策略,他們把其它方式采集到的閥門角度作為觀察結(jié)果輸入給策略,在這種簡(jiǎn)單的設(shè)置下 SAC 只需要 3 個(gè)小時(shí)就可以學(xué)會(huì)解決這個(gè)任務(wù)。相比之下,更早的使用自然策略梯度的研究學(xué)習(xí)同一個(gè)無需圖像輸入的任務(wù)需要花 7.4 個(gè)小時(shí)。
結(jié)論
這項(xiàng)研究展示了基于熵最大化框架的深度強(qiáng)化學(xué)習(xí)可以用來在有挑戰(zhàn)性的真實(shí)世界環(huán)境中學(xué)習(xí)機(jī)器人技能。由于這些策略是直接在真實(shí)世界中學(xué)習(xí)到的,它們對(duì)環(huán)境中的變化表現(xiàn)出了魯棒性,這通過其他方式是很難獲得的。研究人員們也展示了他們可以直接從高維圖像觀察中學(xué)習(xí),這對(duì)經(jīng)典機(jī)器人控制來說也是一個(gè)很大的挑戰(zhàn)。研究人員們希望 SAC 的發(fā)表可以幫助其他的研究團(tuán)隊(duì)一同更好地把深度強(qiáng)化學(xué)習(xí)應(yīng)用在未來更多的復(fù)雜真實(shí)世界任務(wù)中。
2024-12-23 11:01
2024-12-22 08:54
2024-12-21 09:15
2024-12-20 08:53
2024-12-20 08:50
2024-12-19 09:23
2024-12-17 09:51
2024-12-17 09:35
2024-12-15 09:06
2024-12-12 10:16