由Katie Driggs-Campbell教授領(lǐng)導(dǎo)的美國伊利諾伊大學(xué)香檳分校和斯坦福大學(xué)的一個(gè)研究小組最近開發(fā)了一種新的基于深度強(qiáng)化學(xué)習(xí)的方法,可以提高移動(dòng)機(jī)器人安全導(dǎo)航擁擠空間的能力。他們的方法,在一篇預(yù)先發(fā)表在arXiv上的論文中介紹,是基于利用機(jī)器人周圍的人作為潛在障礙物指標(biāo)的想法。
進(jìn)行這項(xiàng)研究的研究人員之一Masha Itkina告訴說:"我們的論文建立在'人作為傳感器'的研究方向上,用于在有遮擋物的情況下進(jìn)行測繪。關(guān)鍵的見解是,我們可以通過觀察人類的互動(dòng)行為對環(huán)境進(jìn)行空間推斷,從而將人作為傳感器。例如,如果我們觀察到一個(gè)司機(jī)急剎車,我們可以推斷出一個(gè)行人可能已經(jīng)跑到了該司機(jī)前面的路上。"
利用人和他們的互動(dòng)行為來估計(jì)是否存在被遮擋的障礙物的想法是由Afolabi等人在2018年首次提出的,特別是在自動(dòng)駕駛汽車方面。在之前的工作中,Itkina和她的同事在該小組的努力基礎(chǔ)上,將 "人作為傳感器 "的想法進(jìn)行了概括,以便考慮到多個(gè)被觀察到的人類駕駛員,而不是單一的駕駛員(如Afolabi團(tuán)隊(duì)的方法所考慮的)。
為了做到這一點(diǎn),他們?yōu)樽灾鬈囕v周圍的所有不同司機(jī)開發(fā)了一個(gè) "傳感器 "模型。這些模型中的每一個(gè)都將駕駛員的軌跡映射到駕駛員前方環(huán)境的占用率網(wǎng)格表示。隨后,利用傳感器融合技術(shù),這些占用率估計(jì)被納入自主機(jī)器人的地圖。
Itkina說:"在我們最近的論文中,我們通過在強(qiáng)化學(xué)習(xí)管道中考慮閉塞推斷來完成這一循環(huán)。我們的目的是證明閉塞推斷對下游路徑規(guī)劃器是有益的,特別是當(dāng)空間表示是任務(wù)感知的。為了實(shí)現(xiàn)這一目標(biāo),我們構(gòu)建了一個(gè)端到端的架構(gòu),同時(shí)學(xué)習(xí)推斷閉塞,并輸出一個(gè)成功和安全地到達(dá)目標(biāo)的策略。"
以前開發(fā)的大多數(shù)將人視為傳感器的模型是專門為在城市環(huán)境中實(shí)施而設(shè)計(jì)的,以提高自主車輛的安全性。另一方面,新模型的設(shè)計(jì)是為了提高移動(dòng)機(jī)器人在人群中的導(dǎo)航能力。
對于自主系統(tǒng)來說,人群導(dǎo)航任務(wù)通常比城市駕駛?cè)蝿?wù)更加困難,因?yàn)槿祟愒谌巳褐械男袨椴惶袟l理,因此更加不可預(yù)測。研究人員決定使用一個(gè)深度強(qiáng)化學(xué)習(xí)模型來解決這些任務(wù),該模型集成了一個(gè)由變異自動(dòng)編碼器(VAE)學(xué)習(xí)的閉塞感知的潛在空間。
這項(xiàng)研究的第一作者Ye-Ji Mun告訴TechXplore說:"我們首先在局部占用網(wǎng)格圖中表示機(jī)器人的周圍環(huán)境,這很像機(jī)器人周圍障礙物的鳥瞰圖或俯視圖。這種占位網(wǎng)格圖使我們能夠在網(wǎng)格區(qū)域內(nèi)捕捉豐富的互動(dòng)行為,而不考慮物體和人的數(shù)量或大小和形狀。"
研究人員的模型包括一個(gè)閉塞推理模塊,該模塊經(jīng)過訓(xùn)練可以提取觀察到的社會(huì)行為,例如從收集到的地圖輸入序列中放慢速度或轉(zhuǎn)彎以避免碰撞。隨后,它使用這些信息來預(yù)測被遮擋的物體或代理人可能位于何處,并使用VAE架構(gòu)將這種 "增強(qiáng)的感知信息 "編碼到低維的潛在表示中。
Mun解釋說:"由于我們的閉塞推理模塊只提供了對周圍人類代理人的部分觀察,我們還有一個(gè)監(jiān)督者模型,其潛在向量在訓(xùn)練期間對觀察到的和閉塞的人類代理人的空間位置進(jìn)行編碼。通過將我們的閉塞模塊的潛空間與監(jiān)督者模型的潛空間相匹配,我們通過將觀察到的社會(huì)行為與被閉塞的人類代理的空間位置聯(lián)系起來,增強(qiáng)了感知信息。"
由此產(chǎn)生的閉塞感知潛在表征最終被送入一個(gè)深度強(qiáng)化學(xué)習(xí)框架,鼓勵(lì)機(jī)器人在完成任務(wù)的同時(shí)主動(dòng)避免碰撞。Itkina、Mun和他們的同事在一系列的實(shí)驗(yàn)中測試了他們的模型,包括在模擬環(huán)境和現(xiàn)實(shí)世界中,使用移動(dòng)機(jī)器人Turtlebot 2i。
Mun說:"我們成功地實(shí)現(xiàn)了'人作為傳感器'的概念,以增強(qiáng)有限的機(jī)器人感知力,并進(jìn)行遮擋感知的人群導(dǎo)航"我們證明了我們的閉塞感知策略比有限視角導(dǎo)航實(shí)現(xiàn)了更好的導(dǎo)航性能(即更好的避免碰撞和更平滑的導(dǎo)航路徑),并與全知視角導(dǎo)航相媲美。據(jù)我們所知,這項(xiàng)工作是第一個(gè)將社會(huì)遮擋推理用于人群導(dǎo)航的工作。"
在他們的測試中,Itkina、Mun和他們的同事還發(fā)現(xiàn),他們的模型產(chǎn)生了不完美的地圖,其中不包含觀察到的代理人和估計(jì)的代理人的確切位置。相反,他們的模塊學(xué)會(huì)了專注于估計(jì)附近的'關(guān)鍵代理'的位置,這些代理可能被遮擋,并可能阻擋機(jī)器人走向所需位置的路徑。
Mun說:"這一結(jié)果意味著,在一個(gè)部分可觀察的、擁擠的環(huán)境中,完整的地圖不一定是更好的導(dǎo)航地圖,而是專注于少數(shù)有潛在危險(xiǎn)的代理人更為重要?!?/p>
這個(gè)研究小組收集的初步結(jié)果是非常有希望的,因?yàn)樗鼈儚?qiáng)調(diào)了他們的方法在減少機(jī)器人在擁擠環(huán)境中與障礙物的碰撞方面的潛力。在未來,他們的模型可以在現(xiàn)有的和新開發(fā)的移動(dòng)機(jī)器人上實(shí)施,這些機(jī)器人被設(shè)計(jì)用來導(dǎo)航商場、機(jī)場、辦公室和其他擁擠的環(huán)境。
Itkina補(bǔ)充說:"這項(xiàng)工作的主要?jiǎng)訖C(jī)是捕捉在人類周圍導(dǎo)航時(shí)類似人類的直覺,特別是在遮擋的環(huán)境中。我們希望更深入地研究捕捉人類的洞察力,以提高機(jī)器人的能力。具體來說,我們對如何同時(shí)對環(huán)境進(jìn)行預(yù)測和推斷閉塞情況感興趣,因?yàn)檫@兩項(xiàng)任務(wù)的輸入都涉及對人類行為的歷史觀察。我們也在思考這些想法如何能夠轉(zhuǎn)移到不同的環(huán)境中,如倉庫和輔助機(jī)器人技術(shù)?!?/p>
2024-09-13 09:23
2024-09-12 09:22
2024-09-10 09:46
2024-09-09 08:09
2024-09-07 09:58
2024-09-06 09:12
2024-09-03 09:08
2024-09-01 08:20
2024-09-01 08:07