您的位置:首頁 > 資訊 > 行業(yè)動(dòng)態(tài) > 正文

專訪 | 前OpenAI科學(xué)家辭職創(chuàng)立智能機(jī)器人公司,我們和他們的CEO聊了聊

2017-11-30 08:12 性質(zhì):轉(zhuǎn)載 作者:機(jī)器之心 來源:機(jī)器之心
免責(zé)聲明:中叉網(wǎng)(m.m21363.cn)尊重合法版權(quán),反對(duì)侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要?jiǎng)h除,敬請(qǐng)來電商榷?。?/div>

傳統(tǒng)機(jī)器人的硬傷

  傳統(tǒng)工業(yè)機(jī)器人的痛點(diǎn),是每一個(gè)想要做智能機(jī)器人創(chuàng)業(yè)公司的機(jī)會(huì)。

  目前,工業(yè)機(jī)器人的硬件水準(zhǔn)是無可挑剔的。市面上大部分機(jī)器人都可以達(dá)到百分之一毫米的精確度,而且一個(gè)三五十萬的機(jī)械臂的耐久度至少是五至十年的時(shí)間。機(jī)器人可以完成批量地、重復(fù)的動(dòng)作、在生產(chǎn)線上進(jìn)行裝配,滿足剛性制造所需的大批量生產(chǎn)。

  但機(jī)器人的每一個(gè)動(dòng)作都需要工程師在背后進(jìn)行精細(xì)的編程,從拿起一個(gè)元件,到裝配到另一個(gè)元件上,編程的過程都需要考量諸如距離、角度這樣的條件。很多在人類看來非常簡單的動(dòng)作,對(duì)機(jī)器人來說卻是很大的挑戰(zhàn)。

  比如,將兩個(gè)齒輪合在一起,人類只要擰一擰調(diào)整一下角度就可以輕松地將齒輪卡住,但機(jī)器人不這么覺得。如果用傳統(tǒng)機(jī)械的方法,工程師需要準(zhǔn)確的監(jiān)測(cè)到兩個(gè)齒輪之間的角度差異,然后來回進(jìn)行轉(zhuǎn)動(dòng)讓它完美地契合在一起,這立刻就變得變成一個(gè)很困難的工程問題。

  「任何需要用眼來看,然后用手來去進(jìn)行適應(yīng)性的操作,都是對(duì)傳統(tǒng)機(jī)器人的挑戰(zhàn),」Chen 說。越來越多年輕人不愿意在工廠或者倉庫里做這些枯燥的、重復(fù)的動(dòng)作,但傳統(tǒng)機(jī)器人又無法適應(yīng)柔性的、可以隨時(shí)變化操作的工業(yè)制造。Chen 想要在短時(shí)間內(nèi)解決的就是,讓機(jī)器人既可以組裝齒輪,下一秒也可以去裝備其他的元件或者完成其他的動(dòng)作。

  智能機(jī)器人的解決方法可以有很多。今年受機(jī)器人公司關(guān)注的有谷歌提出的自我監(jiān)督模仿(Self-Supervised Imitation)。通過一種叫做時(shí)間對(duì)比網(wǎng)絡(luò)(Time-Contrastive Networks)的神經(jīng)網(wǎng)絡(luò),機(jī)器人能夠自我學(xué)習(xí)視頻里的動(dòng)作,比如倒水,或者站立。

  Chen 則將希望寄托于深度強(qiáng)化學(xué)習(xí)。這種基于環(huán)境而行動(dòng)、從而獲得最大化利益的機(jī)器學(xué)習(xí)方法,在過去的兩年時(shí)間里成功地讓電腦學(xué)會(huì)了下圍棋和打游戲。

  2015 年,Chen 過去所在的伯克利機(jī)器人實(shí)驗(yàn)室,已經(jīng)通過深度強(qiáng)化學(xué)習(xí)讓機(jī)器人獲得了一種類似于視覺肌肉記憶 的能力(Visual Motor Skills)。人類在做很多動(dòng)作時(shí)不會(huì)認(rèn)真經(jīng)過大腦思考。比如在人喝水前,并不會(huì)在腦海里提前畫上一個(gè)從拿起杯子——轉(zhuǎn)動(dòng)杯子角度——將水倒入嘴里的草圖,而是根據(jù)條件反射直接拿起杯子喝水。

  這個(gè)過程并不復(fù)雜:深度神經(jīng)網(wǎng)絡(luò)就像人類的大腦一樣,它能夠處理視覺數(shù)據(jù),讓機(jī)器擁有模擬人類條件反射的能力;模擬之后,接下來就是訓(xùn)練機(jī)器的方法。利用深度強(qiáng)化學(xué)習(xí),機(jī)器人能通過不斷地試錯(cuò)和獎(jiǎng)勵(lì)機(jī)制找到學(xué)習(xí)這個(gè)動(dòng)作的「竅門」。這種學(xué)習(xí)動(dòng)作的過程不需要手把手的編程。

  但是,兩年前的方法最終只停留在理論階段。機(jī)器人的深度強(qiáng)化學(xué)習(xí)需要一個(gè)引導(dǎo)設(shè)置,而不是漫無目的地試錯(cuò),這就需要擁有強(qiáng)化學(xué)習(xí)知識(shí)的人才(主力是博士生)完成前期的編程和調(diào)試。一個(gè)大學(xué)里的實(shí)驗(yàn)室可以讓幾個(gè)博士生沒日沒夜的埋頭苦干,但這顯然不適用于工業(yè)界。

  因此,直到兩年后,Chen 的團(tuán)隊(duì)找到了能夠落地的解決方案——模擬學(xué)習(xí)(Imitation Learning)。

模擬學(xué)習(xí)搭配強(qiáng)化學(xué)習(xí)

  消費(fèi)級(jí) VR 設(shè)備的出現(xiàn),為很多 AI 公司提供了意外驚喜。Embodied Intelligence 使用了 VR 設(shè)備實(shí)現(xiàn)了機(jī)器人模擬學(xué)習(xí)的能力。據(jù) Chen 介紹,模擬學(xué)習(xí)的主要研究出自另一位聯(lián)合創(chuàng)始人 Tianhao Zhang 之手。

  任何人帶上 VR 設(shè)備,拿上遙控器,就相當(dāng)于人在實(shí)時(shí)遙控一個(gè)機(jī)器人。機(jī)器人只需實(shí)時(shí)追蹤 VR 設(shè)備的手的運(yùn)動(dòng)軌跡,VR 中的示范數(shù)據(jù)則將用來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在這個(gè)過程中,機(jī)器人持續(xù)地學(xué)習(xí),直到它表示:「我學(xué)會(huì)了。現(xiàn)在我可以自己接手了。」整個(gè)過程只需要 30 分鐘。按照 Chen 的話說,即使是這 30 分鐘再乘上 100 倍,也比過去訓(xùn)練機(jī)器人動(dòng)作的成本要小。

  這種方法具有很好的遷移性或者說適用性。即使是不同的動(dòng)作,它背后的代碼是一模一樣的,包括 VR 的代碼、收集示范動(dòng)作的代碼、訓(xùn)練的代碼,以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的代碼,都是一樣的。唯一的不同只是示范的動(dòng)作而已。

  目前,Embodied Intelligence 的機(jī)器人學(xué)過時(shí)間最長的動(dòng)作是將近一分鐘,學(xué)習(xí)動(dòng)作并沒有明確的規(guī)定,大部分人類憑條件反射就能完成的動(dòng)作,機(jī)器人都可以學(xué)習(xí)。但還不知道機(jī)器人是否能學(xué)習(xí)一些非常規(guī)的動(dòng)作,比如上周波士頓動(dòng)力機(jī)器人 Atlas 的后空翻。

  完成模擬學(xué)習(xí)后,機(jī)器人依然需要強(qiáng)化學(xué)習(xí)的介入,讓它能夠繼續(xù)進(jìn)行自我學(xué)習(xí)。人類的動(dòng)作有些時(shí)候并非最有效的,比如在走路時(shí)沿著一個(gè)弧線,這可能不是最優(yōu)的結(jié)果,或者人在走路的時(shí)候會(huì)有一些顫抖也是很有可能的,但對(duì)一個(gè)機(jī)器人來說,通過強(qiáng)化學(xué)習(xí)可以讓動(dòng)作變得更加高效。

  「近段時(shí)間 AI 領(lǐng)域的突破性進(jìn)展已讓機(jī)器人學(xué)會(huì)行走,通過反復(fù)試錯(cuò)學(xué)習(xí)操縱物體,以及從 VR 收集的示范數(shù)據(jù)來學(xué)習(xí)新的技能。但是,這些進(jìn)展都局限于仿真或?qū)嶒?yàn)室環(huán)境。」Amplify Partners 合伙人Sunil Dhaliwal 說,「Embodied Intelligence 團(tuán)隊(duì)推動(dòng)了很多這些進(jìn)展,而現(xiàn)在他們將把這些最前沿的人工智能和機(jī)器人領(lǐng)域的進(jìn)展引進(jìn)具體的應(yīng)用場景中?!?/P>

  據(jù) Chen 透露,這套基于模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)器人應(yīng)用將在明年投身工業(yè)界,通過這套流程,機(jī)器人可以輕松地學(xué)會(huì)廣泛的技能,尤其在那些傳統(tǒng)解決方案望而卻步的應(yīng)用領(lǐng)域,比如操縱可變形的物體——電線、絲料、布料、服裝、液體包裝、食品等,在不規(guī)則、雜亂環(huán)境中分揀、整理物品,復(fù)雜的拼裝任務(wù)。而隨著材料不規(guī)整程度的增加,以及個(gè)性化訂單的增長,傳統(tǒng)硬編碼的方式尤其展現(xiàn)出其局限性。

  只不過,Embodied Intelligence 的藍(lán)圖并不盡于此。

五到十年,實(shí)現(xiàn)元學(xué)習(xí)

  模擬學(xué)習(xí)+強(qiáng)化學(xué)習(xí)是一個(gè) Embodied Intelligence 能夠短期內(nèi)提供的智能解決方案,元學(xué)習(xí)(Meta Learning)才是這家公司放眼未來五年到十年的核心?!笝C(jī)器人和人力的關(guān)鍵區(qū)別是『教』的成本,我們想把機(jī)器人變得和人一樣可教?,F(xiàn)階段,我們只是在減少教的時(shí)間?!?/P>

  什么是元學(xué)習(xí)?簡答來說,就是讓機(jī)器人學(xué)會(huì)一個(gè)學(xué)習(xí)策略。過去的深度學(xué)習(xí)是通過輸入大量的數(shù)據(jù)得到一個(gè)結(jié)果,而元學(xué)習(xí)則是從少量數(shù)據(jù)中獲得學(xué)習(xí)這類任務(wù)的方法。換言之,這也是一種體現(xiàn)在機(jī)器人上的通用人工智能(Artificial General Intelligence),也是為什么Chen會(huì)將公司取名為Embodied(具現(xiàn)) Intelligence(智能)。

  Chen 在元學(xué)習(xí)上已經(jīng)有了一些研究上的成果。今年,Chen 聯(lián)合他的導(dǎo)師在 arXiv 上發(fā)表了兩篇關(guān)于元學(xué)習(xí)的論文。Meta Learning Shared Hierarchies 研究了一種用于學(xué)習(xí)層次結(jié)構(gòu)化策略的元學(xué)習(xí)方法,通過使用共享基元提高未見任務(wù)的樣本效率;另一篇 Meta-Learning with Temporal Convolutions 則提出了一類基于時(shí)間卷積的簡單和通用的元學(xué)習(xí)器體系結(jié)構(gòu),這個(gè)結(jié)構(gòu)不限領(lǐng)域,而且沒有使用特定的策略或算法進(jìn)行編碼。

  在 Chen 設(shè)想的藍(lán)圖里,Embodied Intelligence 最終實(shí)現(xiàn)的智能機(jī)器人將同時(shí)擁有元學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的能力。「強(qiáng)化學(xué)習(xí)在單一任務(wù)上表現(xiàn)的很好,元學(xué)習(xí)是讓機(jī)器人掌握快速學(xué)習(xí),這兩者在未來是可以互補(bǔ)的。」

  身在硅谷的 Chen 面臨的壓力不小,除了像谷歌這樣的科技巨頭發(fā)力智能機(jī)器人外,不少初創(chuàng)公司也有這樣的野心,在距離埃默里維爾市開車 20 分鐘的聯(lián)合城市(City),同樣一家機(jī)器人公司Vicarious.ai 在為實(shí)現(xiàn)具有人類智能的機(jī)器人夜以繼日。該公司的 CTO Dileep George 曾告訴機(jī)器之心,他們選擇了一條完全不同于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的路徑——通過模擬人類的視覺皮質(zhì),結(jié)合生成模型,讓機(jī)器能夠模擬物體的結(jié)構(gòu),從而獲得對(duì)物體本身的理解能力。而他們預(yù)期在 2040 年前后實(shí)現(xiàn)。

  沒有人能確定哪一條路能通往人工智能的終極圣杯。但從現(xiàn)在來看,帶著伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了機(jī)器人科研的最前沿。


 

12下一頁

網(wǎng)友評(píng)論
文明上網(wǎng),理性發(fā)言,拒絕廣告

相關(guān)資訊

關(guān)注官方微信

手機(jī)掃碼看新聞