自主駕駛技術(shù)的五大挑戰(zhàn)
我們來看看無人駕駛要適應(yīng)這些復(fù)雜的交通環(huán)境所面臨的五大挑戰(zhàn)。
第一,復(fù)雜交通場景的周密感知。自主駕駛要在所有條件下都要能作出安全的判斷,無論是天氣變化,路況的復(fù)雜,它要非常周密的感知周圍的場景。
第二,意外的遭遇的理解和判斷。自主駕駛必須能夠抽象,所謂抽象就是能夠根據(jù)環(huán)境或其他語境的線索來理解交通情境。
目前自主駕駛很難解釋異?,F(xiàn)象,比如說城市經(jīng)常交通管制,交通管制有時并不提前通知;比如無人車來到這個十字路口,遇上交通管制,交警用手勢指揮車輛的停止和行駛。
另外由計算機(jī)來判斷路邊的行人或非機(jī)動車是不是很快要闖入到自己前進(jìn)的方向?這些現(xiàn)象說明僅僅基于簡單規(guī)則的自主駕駛是不可能為每個場景進(jìn)行編碼。
第三,預(yù)行為理解。什么叫預(yù)行為呢?人類駕駛員是根據(jù)預(yù)行為來傳達(dá)我們行駛的意圖。
比如,我們開車在路上走,前方的車,我們能判斷出前方開車的是一個老司機(jī)還是一個新手,如果是新手,有時候要離它遠(yuǎn)一點。但是目前在自主駕駛技術(shù)很難解釋或理解這些細(xì)微的預(yù)行為。
第四,網(wǎng)絡(luò)安全的風(fēng)險。這里給大家展現(xiàn)的這個現(xiàn)象在未來一定會出現(xiàn)。當(dāng)你早上起來到車庫,讓無人車開出車庫,這個時候你手機(jī)上就接到一個短信,要你在今天幾點以前支付比特幣才能讓你的車門打開。
雖然黑客的這種行為不會影響你的生命安全,但是你沒有辦法使用自己的車。因此,通過云端的獲取和更新地圖的自主駕駛將面臨更大的風(fēng)險。這種風(fēng)險的存在使得我們在研究自主駕駛無人車的時,必須要考慮:怎么樣提供更加可靠,更加安全的自主駕駛。
第五,人-車的自然交互。自主駕駛必須以自然的方式與人類交流,要實現(xiàn)車輛與乘客之間的無障礙交流。
比如,乘客上了無人車,自主駕駛系統(tǒng)知曉乘客要去的目的地,理解并回答乘客提出的問題,比如我還有多少時間能到達(dá)目的地?請播放一首歌等等。
也就是說,自然的人-車交互的可以為乘客提供更加舒適、愉快、直觀的、人性化的體驗,而不是一個簡單的點到點的行駛。
交通高精計算的復(fù)雜性
從我前面所談的這些問題可以清楚地看到,自主駕駛面臨的許多問題是具有不確定性、脆弱性和開放性。而帶來的不確定性、脆弱性和開放性是存在著兩個問題,即,對于駕駛行為來講存在:
1、條件問題。因為我們不可能枚舉出規(guī)劃一個行為的所有先決條件。
2、分支問題,我們不可能枚舉出產(chǎn)生一個行為的所有分支。因此我們需要將車外復(fù)雜未知的現(xiàn)實世界的描述轉(zhuǎn)變成有限的語義“推理”,這是一個直觀的理解。
人開車在很多場合下是一種直覺的判斷。直覺判斷就是要使得機(jī)器也要有對環(huán)境有直觀的理解。
這里展現(xiàn)的圖是目前絕大多數(shù)自主駕駛采用的基本技術(shù)框架。首先是場景感知,然后是定位,隨著給出駕駛決策、規(guī)劃和行為的控制。但是我們?nèi)嗽陂_車的時候并不是按照這樣一個簡單的串型的方式進(jìn)行的。
人類駕駛員開車是一個對交通情境認(rèn)知理解的連續(xù)過程。因此我們需要探討類人自主駕駛的一種新的方法,也就是說,自主駕駛不是簡單的AI的形式,不是簡單的一種形式化問題的求解。
既然不是一個簡單的形式化問題的求解,那么,怎樣定義自主駕駛這個問題?
這里我們把場景感知和情境認(rèn)知區(qū)別開來,所謂“場景”是指某個交通場合在一個特定的時間和特定的空間中的具體情形或景象。它可以定義為一組實體,當(dāng)然這種實體的描述是通過傳感器的數(shù)據(jù)來獲得的。
“情境”,它是指某一段時間和空間許多具體情形的概括?!扒榫场钡摹熬场笔侵笜?gòu)成和蘊含在場景中的那些相互交織的因素及其相互之間的關(guān)系。
所以情境計算是對場景各個對象相互關(guān)系的解釋。交通環(huán)境中各種物體(或?qū)ο螅╆P(guān)系的描述在自主駕駛中就顯得非常重要。
前面我們分別談到了場景感知和情境計算。那么我們怎么用機(jī)器來實現(xiàn)它?我們還要定義機(jī)器實現(xiàn)的基本科學(xué)問題。
這里我們從情境認(rèn)知的角度來重新定義自主駕駛:如何使自主駕駛汽車像人一樣理解和記憶交通情境,使其具有記憶、推理和經(jīng)驗更新的機(jī)制,能夠應(yīng)對高動態(tài)和強(qiáng)隨機(jī)性的交通場景變化?這里談到了記憶和理解。
那么,怎樣實現(xiàn)理解和記憶的目的是什么?也就是說,我們要發(fā)展一種進(jìn)化的、發(fā)展的自主駕駛學(xué)習(xí)系統(tǒng),使自主駕駛系統(tǒng)像人類駕駛員一樣熟能生巧。
為什么談到“進(jìn)化”?因為如果設(shè)計一個深度學(xué)習(xí)系統(tǒng)來構(gòu)建一個自主駕駛,你設(shè)計成什么樣的算法,你的車就具有什么樣的能力和屬性。
但是我們?nèi)瞬皇沁@樣,我們在駕校學(xué)習(xí)駕駛,然后取得駕駛執(zhí)照,隨著開車的時間增長,駕駛技術(shù)會越來越嫻熟。所以這里如何把熟能生巧和系統(tǒng)實現(xiàn)結(jié)合,這就是我們現(xiàn)在正在做的工作。
在我們思考這個問題的時候,需要從認(rèn)知的角度去了解人類駕駛員是如何注意并獲取交通環(huán)境信息的?而交通環(huán)境的信息是如何在大腦中儲存和加工的?特別是在產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征?
人對環(huán)境信息的注意是具有高度選擇性,它只注意自己感興趣的,只注意自己在下一步采取行為的時候,周圍的場景因素會對自己的行為產(chǎn)生什么樣的影響。
從這個角度來看,我們要將許多無意義的線段及場景特征組織和建立一個有意義的模型。我們從視覺獲得場景的圖像,實際上傳感器得到的都是若干個雜亂的無意義的點、線段,那怎么把無意義的點、線段描述成有意義的實景,這就需要知識。
從認(rèn)知的層面,將孤立、分別的感知事件轉(zhuǎn)換成有意義的模型表征。每一個傳感器是從這個感知通道得到孤立的事件,那怎么能夠把各類傳感器所獲得的信息在事件驅(qū)動的情況下來構(gòu)成有意義的模式表征?按照這樣一個思路,我們逐步來實現(xiàn)怎么在機(jī)器上通過算法和模型表征它。
這里給出場景感知與情境記憶的基本模塊。這是環(huán)境信息輸入,我們可以把視覺傳感器所獲得的信息看成是傳感器對外界場景的快速掃描,快速的掃描是一種預(yù)編碼,在這面我們引入一些選擇性記憶,把這樣一個預(yù)編碼的信息再送到短期的記憶,后面是長期記憶,長期記憶是把前面短期記憶抽象出來的知識和我們的交通規(guī)則整體形成一個長期記憶的知識庫。
人類對視覺空間關(guān)注的基本機(jī)制
在信息處理模型中有四個認(rèn)知過程,正如我前面所談到的對場景的快速掃描,是一種選擇性注意。對感覺記憶的一些特定信息的注意,然后進(jìn)入到“學(xué)習(xí)”,而這個學(xué)習(xí)是在短期記憶中建立聯(lián)系,我們又稱之為“組織”。
從圖像處理來看,提取了各個邊緣, 把這些邊緣組織形成有意義的面,這些有意義的面進(jìn)而構(gòu)成對一個三維物體的描述,也就是說,從線到面再到三維實體描述,實際上就是一個組織的過程。對這些組織的過程,我們還需要進(jìn)行整合,這個整合實際上是把長期記憶與現(xiàn)場,還有與交通規(guī)則形成關(guān)聯(lián)描述。
這些長期記憶還要反饋到短期記憶中,然后在短期記憶中再進(jìn)行整合,這個整合過程是一個再學(xué)習(xí)的過程。也就是說在已有知識情況下擴(kuò)充一種新的知識的描述。
得到這樣一個結(jié)果以后,我們就可以實現(xiàn)把一個短期記憶轉(zhuǎn)換成長期的記憶,就可以實現(xiàn)一種編碼。在這個過程中既有前饋又有反饋,而當(dāng)前主要的自主駕駛汽車框架是串型結(jié)構(gòu)。
另外,人對場景的變化非常敏感,比如人開車看到右前方有一個騎自行車的,這個時候駕駛員的注意力就轉(zhuǎn)移到具體的位置和視角。從人的駕駛來看,注意力在自主駕駛中是不可或缺的。
從前面討論我們再來看看認(rèn)知構(gòu)建的自主駕駛,我們把它稱之為直覺性AI。當(dāng)前深度學(xué)習(xí)的“端到端”的自主駕駛方法在結(jié)構(gòu)化或半結(jié)構(gòu)化的交通場景取得了很大的成功,但是在復(fù)雜的城區(qū)道路或惡劣環(huán)境中依然面臨巨大的困難。
帶來這些困難的一個直接原因是,許多交通場景的復(fù)雜性和動態(tài)性并不都是可觀測和可控的。特別是行駛過程中對異常情況的處理能力是無法通過事先的大量樣本訓(xùn)練得到,而且也無法獲得大量的負(fù)樣本。
但是交通場景沒有辦法在現(xiàn)場采集更多的負(fù)樣本,所以怎么用對抗網(wǎng)絡(luò)來實現(xiàn)大量交通場景的負(fù)樣本訓(xùn)練汽車,下午會有其專家做更深入的探討。
“場景感知”與“情境認(rèn)知”的融合
對于“場景感知”與“情境認(rèn)知”的融合,我們進(jìn)一步給出其定義。
情境是對場景動態(tài)變化的解釋,還涉及到自主駕駛的行為模型、行動結(jié)果和內(nèi)部狀態(tài),包括轉(zhuǎn)向、速度、意圖或目標(biāo)。
雖然場景是對外部環(huán)境中感知可信實體的完整描述,但是情境僅包括必須認(rèn)識到情況和/或啟動適當(dāng)行為的相關(guān)實體。這里的描述實際上談到就是選擇性,因為傳感器是對周圍場景所有數(shù)據(jù)的采集,但是對于情境認(rèn)知而言,我們并不需要對所有場景進(jìn)行計算。
那機(jī)器怎么實現(xiàn)?我們需要要建立世界模型,即情境認(rèn)知地圖的構(gòu)建。
這里要給出各個場景的影響關(guān)系、因果關(guān)系和控制關(guān)系。融合先驗信息的概率模型,這里就是記憶與學(xué)習(xí)。這里我們提到了成本函數(shù)和預(yù)測與優(yōu)化。
什么叫認(rèn)知地圖?這里舉一個簡單的例子,人類理解或描述物理世界時,大腦總會形成一種對時間的“可視化”圖像。我們把這種可視化圖像稱之為認(rèn)知地圖。
左邊這幅圖,大家看到就很快會記住,而右邊這個圖你就很難記住,因為右邊這個圖,我們無法按照常識去解釋他們相互之間的關(guān)系。也就是說,在物理世界中,各個物體依存的關(guān)系是記憶的基礎(chǔ),這里又進(jìn)一步強(qiáng)調(diào)了對場景中各個實體相互關(guān)聯(lián)的描述是自主駕駛中內(nèi)部表征一個極其重要的因素。
2025-04-09 10:28
2025-04-07 09:58
2025-04-07 09:58
2025-04-07 09:58
2025-04-07 09:34
2025-04-03 08:57
2025-04-03 08:57
2025-04-03 08:57
2025-04-02 14:24
2025-04-01 10:46