近日,谷歌官方博客上發(fā)表了一篇題為《Teaching Robots to Understand Semantic Concepts》的文章,探討了在機器人學習(robotic learning)方面的一些最新進展。機器人學習是指通過機器人自動收集的數(shù)據(jù)(量很大,但是缺乏標簽)與人類的標注數(shù)據(jù)結合起來從而允許其理解語義概念。通過深度視覺特征(deep visual features),機器人在人類演示中借助其數(shù)據(jù)理解顯性事件,模仿人類的行動,理解語義概念比如「玩具」和「鋼筆」從而根據(jù)用戶指令撿起物體。這次的實驗可能為未來在自動機器人系統(tǒng)中結合自監(jiān)督數(shù)據(jù)和人類標注數(shù)據(jù)的工作指出了一條新的道路。
機器學習可以使機器人具備復雜技能,比如抓取和開門。但是,學習這些技能需手動編程機器人試圖優(yōu)化的獎勵函數(shù)。與之相反,人類可以通過觀察別人理解任務目標,或者被簡單地告知目標是什么。人類能夠做到這點是因為有這個世界的背景知識:當我們看到一個人切蘋果時,我們明白目標是切成兩半,而不管蘋果是什么種類的,或者切蘋果的工具是什么樣的。相似地,如果我們被告知撿起蘋果,我們可以通過語境確定哪個物體是蘋果,因為我們知道蘋果的意義是什么。
這就是語義概念:切成兩半這種顯性事件(salient event)和單詞所指稱的物體概念比如蘋果。我們可以教會機器人理解語義概念、并使其遵循通過類別標簽或用戶提供的實例指定的簡單命令嗎? 在本文中,我們探討了在機器人學習(robotic learning)方面的一些最新進展,機器人學習把機器人自動收集的數(shù)據(jù)(量很大,但是缺乏標簽)與人類的標注數(shù)據(jù)結合起來從而允許其理解語義概念。我們將會描述機器人如何在人類提供的演示中通過其數(shù)據(jù)理解顯性事件,模仿人類的行動,理解語義概念比如「玩具」和「鋼筆」以根據(jù)用戶指令撿起物體。
通過深度視覺特征理解人類的演示
在第一組實驗中,我們的目標是幫助機器人通過僅僅觀看若干個無標注的人類演示來理解一個任務,比如開門。通過分析這些演示,機器人必須先從語義上理解顯性事件,這對任務的成功很重要,接著運用強化學習來執(zhí)行任務。
人類演示(左)與機器人模仿(右)
小數(shù)據(jù)集上的無監(jiān)督學習是機器學習中最具挑戰(zhàn)性的場景之一。為了使之可行,我們使用了深度視覺特征(deep visual feature),它來自一個被訓練用來參加 ImageNet 圖像識別競賽的大型網(wǎng)絡。深度視覺特征對語義概念非常敏感,同時保持對諸如外觀和光線的滋擾變量(nuisance variables)的不變性。我們使用這些功能闡釋用戶提供的演示,結果證明以非監(jiān)督的形式從少許演示中學習獎勵函數(shù)確實是可能的,并且無需再訓練。
僅僅通過觀察開門任務來學習獎勵函數(shù)的實例。隨著任務的完成,獎勵函數(shù)從零增加到最大值。
在僅通過觀察學習了獎勵函數(shù)之后,我們使用它去指導機器人學習開門任務(僅通過圖像評估獎勵函數(shù))。借助于大約 10% 時間的初始動作演示,機器人通過已學習的獎勵函數(shù)把精度提升到了 100%。
學習的進程。
通過自監(jiān)督和模擬來趕超人類動作
在《時間對比網(wǎng)絡:多視角觀察的自監(jiān)督學習》(Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation)(https://sermanet.github.io/tcn/)中,我們提出了一種通過觀察理解世界的全新方法,并借助自監(jiān)督姿態(tài)模仿對其進行了演示。我們的方法主要依賴于監(jiān)督的時空同現(xiàn):通過訓練來區(qū)分來自視頻不同時段的幀,從而學習解開現(xiàn)實并將其組織為有用的抽象表征。
以姿態(tài)模仿任務為例,表征的不同維度也許編碼一個人類或機器人身體的不同關節(jié)。我們沒有手動定義人與機器人關節(jié)之間的映射(由于生理差異這首先是含糊不清的),而是讓機器人以端到端的形式學習模仿。當我們的模型同時在人與機器人的觀察中被訓練,即使沒有提供對應關系,它也自然地會發(fā)現(xiàn)兩者的這種關系。因此我們無須給出人與機器人之間的對應就獲得了模仿人類姿態(tài)的機器人。
機器人的自監(jiān)督式人類姿態(tài)模擬。
端到端學習的好處的一個有力證據(jù)是上述的多對一和高度非線性節(jié)點映射。在這個實例中,上下的動作需動用人類的很多關節(jié),而機器人只需動用一個就夠了。我們表明機器人已經(jīng)自己發(fā)現(xiàn)了高度復雜的映射,而無須任何明確的人類姿態(tài)信息。
利用物體的語義類別進行抓取
上述實驗說明人如何通過實例演示使機器人理解任務的語義——顯性事件及動作的相關特征,進而給機器人設定具體目標。如果人類不向機器人演示任務,僅僅告訴它怎么做,又會怎么樣呢?這仍然需要機器人理解語義,以識別用戶指定的語義類別所對應的實物。在《語義抓取的端到端學習》(End-to-End Learning of Semantic Grasping)一文中,我們研究了如何使用人工標注數(shù)據(jù)和自動收集數(shù)據(jù)來執(zhí)行語義抓取任務,該任務中機器人必須從一個塞滿的箱子里抓取用戶指定類別標簽的物體,如「橡皮」或「玩具」。
在我們的語義抓取實驗設置中,機器臂的任務是抓取用戶指定語義類別的物體(如樂高玩具)。
為了學習如何執(zhí)行語義抓取任務,機器人首先通過自動抓取多種物體來收集抓取數(shù)據(jù)集。這些數(shù)據(jù)可以使機器人抓取物體,但無法讓它理解如何將物體與語義標簽對應起來。為了使機器人理解語義,我們又進行了少量的人類監(jiān)督。機器人每成功抓取到一個物體,都會以一個固定姿勢將物體放到攝像機前面,如下圖所示。
機器人在抓取成功后,將物體放置在攝像機前面。這些圖像可用于標注抓取物體的類別。
人類將這些圖像的子集進行標注。由于這些圖像中機器人使用同一個姿勢呈現(xiàn)物體,因此在標注樣本上訓練分類器,進而在剩余圖像上標注標簽就比較容易了。圖像標注后,機器人可以從中了解實際抓取的物體,并將標簽與物體抓取成功后觀察到的圖像聯(lián)系起來。
使用這個標注后的數(shù)據(jù)集,我們可以訓練一個雙流模型,該模型基于當前圖像和機器人可能的行動,可以預測即將抓取到的物體。該模型受到人類視覺皮質中的背腹側流分解的啟發(fā),人類視覺皮質中腹側流負責對物體的語義類別進行推理,背側流負責對抓取物的幾何形狀進行推理。最重要的是,腹側流可以吸納包括標注物體圖像在內的輔助數(shù)據(jù)(未必來自機器人),背側流可以吸納包含不帶有語義標簽的抓取物的輔助數(shù)據(jù),這使得整個系統(tǒng)可通過大量復雜標注數(shù)據(jù)進行更高效的訓練。通過這種方式,我們可以將有限的人類標注數(shù)據(jù)和機器人自動收集的數(shù)據(jù)結合起來,基于想要的語義類別抓取物體,如視頻中所示:
展望
我們的實驗展示了如何將語義標注數(shù)據(jù)和機器人自動收集、自動標注的數(shù)據(jù)結合起來,進而使機器人理解事件、物體類別以及用戶演示。未來,我們或許可以想象使用用戶標注數(shù)據(jù)和不斷增加的自動收集數(shù)據(jù)集來訓練機器人系統(tǒng),以提高機器人的能力、減輕設計自動機器人的工程負擔。另外,隨著機器人系統(tǒng)從真實世界中自動標注的數(shù)據(jù)不斷增加,這些數(shù)據(jù)不僅可用于改善機器人系統(tǒng),還可用于訓練計算機視覺、語音識別和自然語言處理。
當然,我們不是第一個思考將機器人和語義結合起來的人。自然語言理解、機器感知、抓取、模仿學習領域的大量研究已經(jīng)考慮如何在機器人系統(tǒng)中結合語義和機器人行為。但是,我們的實驗可能為未來在自動機器人系統(tǒng)中結合自監(jiān)督數(shù)據(jù)和人類標注數(shù)據(jù)的工作指出了一條新的道路。
2024-10-26 11:08
2024-10-26 10:09
2024-10-23 09:13
2024-10-21 14:35
2024-10-21 09:45
2024-10-21 08:27
2024-10-16 11:29
2024-10-14 09:19
2024-10-14 08:46
2024-10-13 12:05