自主駕駛技術(shù)的五大挑戰(zhàn)
我們來看看無人駕駛要適應(yīng)這些復(fù)雜的交通環(huán)境所面臨的五大挑戰(zhàn)。
第一,復(fù)雜交通場(chǎng)景的周密感知。自主駕駛要在所有條件下都要能作出安全的判斷,無論是天氣變化,路況的復(fù)雜,它要非常周密的感知周圍的場(chǎng)景。
第二,意外的遭遇的理解和判斷。自主駕駛必須能夠抽象,所謂抽象就是能夠根據(jù)環(huán)境或其他語境的線索來理解交通情境。
目前自主駕駛很難解釋異?,F(xiàn)象,比如說城市經(jīng)常交通管制,交通管制有時(shí)并不提前通知;比如無人車來到這個(gè)十字路口,遇上交通管制,交警用手勢(shì)指揮車輛的停止和行駛。
另外由計(jì)算機(jī)來判斷路邊的行人或非機(jī)動(dòng)車是不是很快要闖入到自己前進(jìn)的方向?這些現(xiàn)象說明僅僅基于簡(jiǎn)單規(guī)則的自主駕駛是不可能為每個(gè)場(chǎng)景進(jìn)行編碼。
第三,預(yù)行為理解。什么叫預(yù)行為呢?人類駕駛員是根據(jù)預(yù)行為來傳達(dá)我們行駛的意圖。
比如,我們開車在路上走,前方的車,我們能判斷出前方開車的是一個(gè)老司機(jī)還是一個(gè)新手,如果是新手,有時(shí)候要離它遠(yuǎn)一點(diǎn)。但是目前在自主駕駛技術(shù)很難解釋或理解這些細(xì)微的預(yù)行為。
第四,網(wǎng)絡(luò)安全的風(fēng)險(xiǎn)。這里給大家展現(xiàn)的這個(gè)現(xiàn)象在未來一定會(huì)出現(xiàn)。當(dāng)你早上起來到車庫,讓無人車開出車庫,這個(gè)時(shí)候你手機(jī)上就接到一個(gè)短信,要你在今天幾點(diǎn)以前支付比特幣才能讓你的車門打開。
雖然黑客的這種行為不會(huì)影響你的生命安全,但是你沒有辦法使用自己的車。因此,通過云端的獲取和更新地圖的自主駕駛將面臨更大的風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)的存在使得我們?cè)谘芯孔灾黢{駛無人車的時(shí),必須要考慮:怎么樣提供更加可靠,更加安全的自主駕駛。
第五,人-車的自然交互。自主駕駛必須以自然的方式與人類交流,要實(shí)現(xiàn)車輛與乘客之間的無障礙交流。
比如,乘客上了無人車,自主駕駛系統(tǒng)知曉乘客要去的目的地,理解并回答乘客提出的問題,比如我還有多少時(shí)間能到達(dá)目的地?請(qǐng)播放一首歌等等。
也就是說,自然的人-車交互的可以為乘客提供更加舒適、愉快、直觀的、人性化的體驗(yàn),而不是一個(gè)簡(jiǎn)單的點(diǎn)到點(diǎn)的行駛。
交通高精計(jì)算的復(fù)雜性
從我前面所談的這些問題可以清楚地看到,自主駕駛面臨的許多問題是具有不確定性、脆弱性和開放性。而帶來的不確定性、脆弱性和開放性是存在著兩個(gè)問題,即,對(duì)于駕駛行為來講存在:
1、條件問題。因?yàn)槲覀儾豢赡苊杜e出規(guī)劃一個(gè)行為的所有先決條件。
2、分支問題,我們不可能枚舉出產(chǎn)生一個(gè)行為的所有分支。因此我們需要將車外復(fù)雜未知的現(xiàn)實(shí)世界的描述轉(zhuǎn)變成有限的語義“推理”,這是一個(gè)直觀的理解。
人開車在很多場(chǎng)合下是一種直覺的判斷。直覺判斷就是要使得機(jī)器也要有對(duì)環(huán)境有直觀的理解。
這里展現(xiàn)的圖是目前絕大多數(shù)自主駕駛采用的基本技術(shù)框架。首先是場(chǎng)景感知,然后是定位,隨著給出駕駛決策、規(guī)劃和行為的控制。但是我們?nèi)嗽陂_車的時(shí)候并不是按照這樣一個(gè)簡(jiǎn)單的串型的方式進(jìn)行的。
人類駕駛員開車是一個(gè)對(duì)交通情境認(rèn)知理解的連續(xù)過程。因此我們需要探討類人自主駕駛的一種新的方法,也就是說,自主駕駛不是簡(jiǎn)單的AI的形式,不是簡(jiǎn)單的一種形式化問題的求解。
既然不是一個(gè)簡(jiǎn)單的形式化問題的求解,那么,怎樣定義自主駕駛這個(gè)問題?
這里我們把場(chǎng)景感知和情境認(rèn)知區(qū)別開來,所謂“場(chǎng)景”是指某個(gè)交通場(chǎng)合在一個(gè)特定的時(shí)間和特定的空間中的具體情形或景象。它可以定義為一組實(shí)體,當(dāng)然這種實(shí)體的描述是通過傳感器的數(shù)據(jù)來獲得的。
“情境”,它是指某一段時(shí)間和空間許多具體情形的概括?!扒榫场钡摹熬场笔侵笜?gòu)成和蘊(yùn)含在場(chǎng)景中的那些相互交織的因素及其相互之間的關(guān)系。
所以情境計(jì)算是對(duì)場(chǎng)景各個(gè)對(duì)象相互關(guān)系的解釋。交通環(huán)境中各種物體(或?qū)ο螅╆P(guān)系的描述在自主駕駛中就顯得非常重要。
前面我們分別談到了場(chǎng)景感知和情境計(jì)算。那么我們?cè)趺从脵C(jī)器來實(shí)現(xiàn)它?我們還要定義機(jī)器實(shí)現(xiàn)的基本科學(xué)問題。
這里我們從情境認(rèn)知的角度來重新定義自主駕駛:如何使自主駕駛汽車像人一樣理解和記憶交通情境,使其具有記憶、推理和經(jīng)驗(yàn)更新的機(jī)制,能夠應(yīng)對(duì)高動(dòng)態(tài)和強(qiáng)隨機(jī)性的交通場(chǎng)景變化?這里談到了記憶和理解。
那么,怎樣實(shí)現(xiàn)理解和記憶的目的是什么?也就是說,我們要發(fā)展一種進(jìn)化的、發(fā)展的自主駕駛學(xué)習(xí)系統(tǒng),使自主駕駛系統(tǒng)像人類駕駛員一樣熟能生巧。
為什么談到“進(jìn)化”?因?yàn)槿绻O(shè)計(jì)一個(gè)深度學(xué)習(xí)系統(tǒng)來構(gòu)建一個(gè)自主駕駛,你設(shè)計(jì)成什么樣的算法,你的車就具有什么樣的能力和屬性。
但是我們?nèi)瞬皇沁@樣,我們?cè)隈{校學(xué)習(xí)駕駛,然后取得駕駛執(zhí)照,隨著開車的時(shí)間增長,駕駛技術(shù)會(huì)越來越嫻熟。所以這里如何把熟能生巧和系統(tǒng)實(shí)現(xiàn)結(jié)合,這就是我們現(xiàn)在正在做的工作。
在我們思考這個(gè)問題的時(shí)候,需要從認(rèn)知的角度去了解人類駕駛員是如何注意并獲取交通環(huán)境信息的?而交通環(huán)境的信息是如何在大腦中儲(chǔ)存和加工的?特別是在產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征?
人對(duì)環(huán)境信息的注意是具有高度選擇性,它只注意自己感興趣的,只注意自己在下一步采取行為的時(shí)候,周圍的場(chǎng)景因素會(huì)對(duì)自己的行為產(chǎn)生什么樣的影響。
從這個(gè)角度來看,我們要將許多無意義的線段及場(chǎng)景特征組織和建立一個(gè)有意義的模型。我們從視覺獲得場(chǎng)景的圖像,實(shí)際上傳感器得到的都是若干個(gè)雜亂的無意義的點(diǎn)、線段,那怎么把無意義的點(diǎn)、線段描述成有意義的實(shí)景,這就需要知識(shí)。
從認(rèn)知的層面,將孤立、分別的感知事件轉(zhuǎn)換成有意義的模型表征。每一個(gè)傳感器是從這個(gè)感知通道得到孤立的事件,那怎么能夠把各類傳感器所獲得的信息在事件驅(qū)動(dòng)的情況下來構(gòu)成有意義的模式表征?按照這樣一個(gè)思路,我們逐步來實(shí)現(xiàn)怎么在機(jī)器上通過算法和模型表征它。
這里給出場(chǎng)景感知與情境記憶的基本模塊。這是環(huán)境信息輸入,我們可以把視覺傳感器所獲得的信息看成是傳感器對(duì)外界場(chǎng)景的快速掃描,快速的掃描是一種預(yù)編碼,在這面我們引入一些選擇性記憶,把這樣一個(gè)預(yù)編碼的信息再送到短期的記憶,后面是長期記憶,長期記憶是把前面短期記憶抽象出來的知識(shí)和我們的交通規(guī)則整體形成一個(gè)長期記憶的知識(shí)庫。
人類對(duì)視覺空間關(guān)注的基本機(jī)制
在信息處理模型中有四個(gè)認(rèn)知過程,正如我前面所談到的對(duì)場(chǎng)景的快速掃描,是一種選擇性注意。對(duì)感覺記憶的一些特定信息的注意,然后進(jìn)入到“學(xué)習(xí)”,而這個(gè)學(xué)習(xí)是在短期記憶中建立聯(lián)系,我們又稱之為“組織”。
從圖像處理來看,提取了各個(gè)邊緣, 把這些邊緣組織形成有意義的面,這些有意義的面進(jìn)而構(gòu)成對(duì)一個(gè)三維物體的描述,也就是說,從線到面再到三維實(shí)體描述,實(shí)際上就是一個(gè)組織的過程。對(duì)這些組織的過程,我們還需要進(jìn)行整合,這個(gè)整合實(shí)際上是把長期記憶與現(xiàn)場(chǎng),還有與交通規(guī)則形成關(guān)聯(lián)描述。
這些長期記憶還要反饋到短期記憶中,然后在短期記憶中再進(jìn)行整合,這個(gè)整合過程是一個(gè)再學(xué)習(xí)的過程。也就是說在已有知識(shí)情況下擴(kuò)充一種新的知識(shí)的描述。
得到這樣一個(gè)結(jié)果以后,我們就可以實(shí)現(xiàn)把一個(gè)短期記憶轉(zhuǎn)換成長期的記憶,就可以實(shí)現(xiàn)一種編碼。在這個(gè)過程中既有前饋又有反饋,而當(dāng)前主要的自主駕駛汽車框架是串型結(jié)構(gòu)。
另外,人對(duì)場(chǎng)景的變化非常敏感,比如人開車看到右前方有一個(gè)騎自行車的,這個(gè)時(shí)候駕駛員的注意力就轉(zhuǎn)移到具體的位置和視角。從人的駕駛來看,注意力在自主駕駛中是不可或缺的。
從前面討論我們?cè)賮砜纯凑J(rèn)知構(gòu)建的自主駕駛,我們把它稱之為直覺性AI。當(dāng)前深度學(xué)習(xí)的“端到端”的自主駕駛方法在結(jié)構(gòu)化或半結(jié)構(gòu)化的交通場(chǎng)景取得了很大的成功,但是在復(fù)雜的城區(qū)道路或惡劣環(huán)境中依然面臨巨大的困難。
帶來這些困難的一個(gè)直接原因是,許多交通場(chǎng)景的復(fù)雜性和動(dòng)態(tài)性并不都是可觀測(cè)和可控的。特別是行駛過程中對(duì)異常情況的處理能力是無法通過事先的大量樣本訓(xùn)練得到,而且也無法獲得大量的負(fù)樣本。
但是交通場(chǎng)景沒有辦法在現(xiàn)場(chǎng)采集更多的負(fù)樣本,所以怎么用對(duì)抗網(wǎng)絡(luò)來實(shí)現(xiàn)大量交通場(chǎng)景的負(fù)樣本訓(xùn)練汽車,下午會(huì)有其專家做更深入的探討。
“場(chǎng)景感知”與“情境認(rèn)知”的融合
對(duì)于“場(chǎng)景感知”與“情境認(rèn)知”的融合,我們進(jìn)一步給出其定義。
情境是對(duì)場(chǎng)景動(dòng)態(tài)變化的解釋,還涉及到自主駕駛的行為模型、行動(dòng)結(jié)果和內(nèi)部狀態(tài),包括轉(zhuǎn)向、速度、意圖或目標(biāo)。
雖然場(chǎng)景是對(duì)外部環(huán)境中感知可信實(shí)體的完整描述,但是情境僅包括必須認(rèn)識(shí)到情況和/或啟動(dòng)適當(dāng)行為的相關(guān)實(shí)體。這里的描述實(shí)際上談到就是選擇性,因?yàn)閭鞲衅魇菍?duì)周圍場(chǎng)景所有數(shù)據(jù)的采集,但是對(duì)于情境認(rèn)知而言,我們并不需要對(duì)所有場(chǎng)景進(jìn)行計(jì)算。
那機(jī)器怎么實(shí)現(xiàn)?我們需要要建立世界模型,即情境認(rèn)知地圖的構(gòu)建。
這里要給出各個(gè)場(chǎng)景的影響關(guān)系、因果關(guān)系和控制關(guān)系。融合先驗(yàn)信息的概率模型,這里就是記憶與學(xué)習(xí)。這里我們提到了成本函數(shù)和預(yù)測(cè)與優(yōu)化。
什么叫認(rèn)知地圖?這里舉一個(gè)簡(jiǎn)單的例子,人類理解或描述物理世界時(shí),大腦總會(huì)形成一種對(duì)時(shí)間的“可視化”圖像。我們把這種可視化圖像稱之為認(rèn)知地圖。
左邊這幅圖,大家看到就很快會(huì)記住,而右邊這個(gè)圖你就很難記住,因?yàn)橛疫呥@個(gè)圖,我們無法按照常識(shí)去解釋他們相互之間的關(guān)系。也就是說,在物理世界中,各個(gè)物體依存的關(guān)系是記憶的基礎(chǔ),這里又進(jìn)一步強(qiáng)調(diào)了對(duì)場(chǎng)景中各個(gè)實(shí)體相互關(guān)聯(lián)的描述是自主駕駛中內(nèi)部表征一個(gè)極其重要的因素。
2023-12-28 09:49
2023-12-26 09:01
2023-12-26 08:57
2023-12-25 09:54
2023-12-25 09:41
2023-12-25 09:20
2023-12-25 08:40
2023-12-25 08:37
2023-12-22 10:15
2023-12-22 10:11