在2018中國(guó)(深圳)IT領(lǐng)袖峰會(huì)期間,網(wǎng)易科技對(duì)圖靈機(jī)器人創(chuàng)始人兼CEO俞志晨進(jìn)行了專訪。俞志晨透露,2018年語(yǔ)義識(shí)別領(lǐng)域最核心的就是圈場(chǎng)景,這也是圖靈機(jī)器人目前最核心的目標(biāo)。此前圖靈機(jī)器人主要產(chǎn)品在兒童機(jī)器人市場(chǎng),2018年下半年,圖靈機(jī)器人將進(jìn)入更多場(chǎng)景。(溫泉)
以下為訪談全文,略經(jīng)編輯:
網(wǎng)易科技:之前提到人工智能,提語(yǔ)音和圖像識(shí)別比較多,為什么語(yǔ)義識(shí)別不像前兩者那么廣為人知?
俞志晨:圖像識(shí)別,它會(huì)更前端一些,語(yǔ)音很多時(shí)候是會(huì)偏后端一些,后端一些支撐的技術(shù),包括一些后端的應(yīng)用,這兩個(gè)其實(shí)是有些差別的。而且它的整個(gè)的技術(shù)的發(fā)展的節(jié)奏也不太一樣,比如說(shuō)語(yǔ)音,包括應(yīng)用語(yǔ)音的整個(gè)市場(chǎng)發(fā)展,從時(shí)間上來(lái)看,第一語(yǔ)音整個(gè)的模式和它的商業(yè)化這塊,其實(shí)是走得最前的,視覺(jué)主要是去年,去年的市場(chǎng)處于爆發(fā)期。然后語(yǔ)義,語(yǔ)義實(shí)際上還是屬于第三波的產(chǎn)業(yè)機(jī)會(huì)。
單從大的未來(lái)來(lái)看,語(yǔ)義毫無(wú)疑問(wèn)它的市場(chǎng)覆蓋面肯定會(huì)比語(yǔ)音和視覺(jué)要大。
網(wǎng)易科技:這是為什么?
俞志晨:你看語(yǔ)音的發(fā)展契機(jī)像科大訊飛,還有包括國(guó)內(nèi)出來(lái)一些語(yǔ)音公司,基本上都屬于大概,最早第一波2000年初就開(kāi)始起來(lái)了,2000年左右科大訊飛就屬于發(fā)展的比較好的,上市,包括國(guó)外也是這樣的。之前整個(gè)人工智能行業(yè),早期就是以語(yǔ)音為主。去年、前年視覺(jué)開(kāi)始爆發(fā)。
這一方面是說(shuō)本身這個(gè)技術(shù)在不斷成熟,另一方面是說(shuō),有安防的這個(gè)場(chǎng)景來(lái)托它,這么一個(gè)大的市場(chǎng)機(jī)會(huì),就導(dǎo)致整個(gè)視覺(jué)這塊的市場(chǎng)在催化。語(yǔ)義現(xiàn)在還處于一個(gè)沉淀、積累的階段。我認(rèn)為語(yǔ)義的能量還遠(yuǎn)遠(yuǎn)沒(méi)有爆發(fā)出來(lái),這是從目前整個(gè)市場(chǎng)的形態(tài)來(lái)看是這樣的。
網(wǎng)易科技:為什么它還處于沉淀和積累的階段,它為什么發(fā)展的程度沒(méi)有語(yǔ)音和視覺(jué)那么成熟?它要解決哪幾個(gè)關(guān)鍵問(wèn)題才算比較成熟,它目前已經(jīng)解決了哪幾個(gè)問(wèn)題,有哪幾個(gè)問(wèn)題沒(méi)有解決?
俞志晨:剛才為什么說(shuō)像語(yǔ)義將來(lái)的市場(chǎng)空間會(huì)更大?我認(rèn)為語(yǔ)義現(xiàn)在技術(shù)通常有兩個(gè)階段。一方面是說(shuō)很多時(shí)候它會(huì)提升效率,給to B的企業(yè)來(lái)用,這個(gè)是目前不管是語(yǔ)音、視覺(jué)、語(yǔ)義都會(huì)經(jīng)歷這個(gè)階段,這個(gè)過(guò)程是必不可少的。當(dāng)然我認(rèn)為再往后走,整個(gè)語(yǔ)義整個(gè)是能夠,比如客服也好,其實(shí)它的基本技術(shù)全部是圍繞語(yǔ)義來(lái)做的。
客服是一大塊,它實(shí)際上像很多的智能音箱,語(yǔ)音識(shí)別是一部分。但是為什么一開(kāi)始大家很關(guān)注語(yǔ)音,因?yàn)檎Z(yǔ)音它是一個(gè)很容易感受到的東西,你里面所有的功能都是基于語(yǔ)義來(lái)做出來(lái)的東西。
但是對(duì)用戶來(lái)講,他可能以為它是基于語(yǔ)音做出來(lái)的。但是實(shí)際上像智能音箱那個(gè)產(chǎn)品,90%的東西是在語(yǔ)義。但是你可能感覺(jué)這就是語(yǔ)音識(shí)別,就跟SIRI是一樣的,因?yàn)槿藢?duì)這種,有一個(gè)詞叫定義,定義上語(yǔ)音的這個(gè)詞更容易帶人們腦中里面產(chǎn)生一個(gè)更加直觀的印象。語(yǔ)義這個(gè)詞太過(guò)技術(shù)化,一般大部分的消費(fèi)者其實(shí)不太容易理解語(yǔ)義這個(gè)詞的。你看絕大部分語(yǔ)音交互的產(chǎn)品,大部分是在語(yǔ)義這塊。
網(wǎng)易科技:所以您剛剛是解釋它將來(lái)的市場(chǎng)空間更大,是因?yàn)榇蟛糠值恼Z(yǔ)音交互的產(chǎn)品,語(yǔ)音交互的產(chǎn)品90%的工作是在語(yǔ)義這塊,而不是語(yǔ)音這塊?
俞志晨:這是必然的,從可辨性來(lái)看,語(yǔ)音和視覺(jué)的可辨性其實(shí)是固定的,它的價(jià)值就很明確,就是我要把語(yǔ)音信號(hào)轉(zhuǎn)成文字。但是它的前期的落地性會(huì)比較容易一些,因?yàn)樗康拿鞔_,所以它的普及度更快一些。視覺(jué)也一樣,視覺(jué)這塊也是說(shuō)通過(guò)人臉識(shí)別、物體識(shí)別去做一些視覺(jué)的事情,它的場(chǎng)景相對(duì)來(lái)講比語(yǔ)音復(fù)雜一些,但是也是相對(duì)來(lái)講比較明確的,就是它作為市場(chǎng)是比較明確的,就是是別人,識(shí)別物體。但是語(yǔ)義的合并性就多了,我用語(yǔ)義怎么來(lái)跟這些場(chǎng)景結(jié)合。相當(dāng)于這種場(chǎng)景的結(jié)合性和延伸性,會(huì)比單純一個(gè)語(yǔ)音識(shí)別的模塊要大很多的。
就像是說(shuō)我做手機(jī)的,其實(shí)毫無(wú)疑問(wèn),你說(shuō)做手機(jī)公司整個(gè)市場(chǎng)價(jià)值規(guī)模更大,還是說(shuō)基于移動(dòng)互聯(lián)網(wǎng)整個(gè)這一套里面的App市場(chǎng)價(jià)值更大?
網(wǎng)易科技:我覺(jué)得有一個(gè)比喻可能更能翻譯您的這個(gè)意思,是不是就是有一千個(gè)讀者,就有一千個(gè)哈姆雷特,你一段文字在那,有一千個(gè)人理解的是不同的意思,他反饋出來(lái)的行為也是完全不同的,是這個(gè)意思吧?
俞志晨:你也可以這么來(lái)去理解,因?yàn)檎Z(yǔ)義實(shí)際上真的是一個(gè),它其實(shí)目前來(lái)講是一個(gè)偏技術(shù)化的概念。它不像語(yǔ)音這么通俗,但是語(yǔ)音其實(shí)就是說(shuō)我剛舉的例子,你看現(xiàn)在智能音箱這個(gè)硬件,硬件其實(shí)沒(méi)多少錢(qián),一百多塊錢(qián),但是里面的那些應(yīng)用和那些服務(wù)技能,全部是基于語(yǔ)義來(lái)做的。所以語(yǔ)義能夠延伸的價(jià)值會(huì)比,其實(shí)音箱,一個(gè)硬件或者一個(gè)語(yǔ)音識(shí)別的模塊,其實(shí)要大很多的。但是很多時(shí)候它倆是不同的階段,不同的模塊。
網(wǎng)易科技:您為什么覺(jué)得它還處于積累和沉淀期?
俞志晨:因?yàn)檎Z(yǔ)義不好實(shí)現(xiàn),就像你剛才說(shuō)的,一千個(gè)讀者有一千個(gè)哈姆雷特,這個(gè)事情從技術(shù)層面來(lái)講很難實(shí)現(xiàn)它。不像語(yǔ)音識(shí)別,剛才說(shuō)語(yǔ)音是一個(gè),比如我說(shuō)一個(gè)字,它是一對(duì)一的關(guān)系,視覺(jué)也是一對(duì)一的關(guān)系,就是傳感,感知系統(tǒng)是一對(duì)一的關(guān)系。但是語(yǔ)義是一對(duì)X,不知道多少個(gè)關(guān)系。所以這個(gè)事情本身從技術(shù)上來(lái)說(shuō)很難,因?yàn)樗茈y,所以它結(jié)合起來(lái)的話,可能需要的工作量會(huì)大很多。
網(wǎng)易科技:語(yǔ)義識(shí)別現(xiàn)在發(fā)展到什么程度了,哪些問(wèn)題是可以現(xiàn)在完全能解決掉的,哪些問(wèn)題是沒(méi)有被解決掉的?
俞志晨:語(yǔ)義通常有幾個(gè)方面,從大的來(lái)看,第一個(gè)是說(shuō)指令型的這種理解,比如說(shuō)很多音箱,智能家居,說(shuō)打開(kāi)或者關(guān)閉,我們叫指令級(jí)的理解,這個(gè)是屬于最低的層次,但是這個(gè)也是目前解決的比較好的。第二是問(wèn)答系統(tǒng)。比如說(shuō)很多客服,它實(shí)際上還是多輪,就是屬于帶有一定的復(fù)雜任務(wù)的,這個(gè)其實(shí)會(huì)更高階一些,用在客服,用在一些其他的虛擬的一些助手這些領(lǐng)域。這個(gè)領(lǐng)域其實(shí)門(mén)檻又會(huì)更高了一些。第三個(gè)層次是在開(kāi)放域的聊天系統(tǒng),就跟人一樣,我們閑聊,天馬行空的在聊。這個(gè)從技術(shù)實(shí)現(xiàn)來(lái)說(shuō)應(yīng)該是最難的,這也是整個(gè)行業(yè)的難點(diǎn),從技術(shù)上來(lái)講,可能技術(shù)上還做不到這種突破吧。
網(wǎng)易科技:目前能夠達(dá)到的這個(gè)和用戶需求的當(dāng)中,這個(gè)距離還有多遠(yuǎn),還有哪些問(wèn)題沒(méi)有解決?
俞志晨:我的感覺(jué),第一是說(shuō)它的整個(gè)問(wèn)題單子里面有很多個(gè),有一堆問(wèn)題需要解決。第一個(gè)是說(shuō),這種語(yǔ)境的理解,上下文這塊的理解。比如我說(shuō)我餓了,你說(shuō)我真的餓了嗎,其實(shí)不是。那它怎么判別是不是餓了還是不餓,還是說(shuō)他到底說(shuō)這句話是什么意思。
網(wǎng)易科技:它需要的信號(hào)不光是這個(gè)語(yǔ)言這個(gè)項(xiàng),它需要很多環(huán)境的信號(hào)。
俞志晨:其實(shí)單純從文字的信息抽出來(lái)的話,它永遠(yuǎn)不能夠百分之百能夠去理解這句話的真實(shí)意圖。但是它需要去融合一些背景信息,融合一些這種環(huán)境信息,包括時(shí)間,你的一些習(xí)慣,還有包括你的一些性格,然后判定你是不是真的餓了,以及你真正的意圖。語(yǔ)義是一個(gè)意圖理解和識(shí)別的過(guò)程。
網(wǎng)易科技:你剛剛指的這個(gè)對(duì)語(yǔ)境的理解是其中的問(wèn)題之一,還有很多問(wèn)題沒(méi)有被解決。
俞志晨:對(duì),語(yǔ)境是一塊,第二是說(shuō)整個(gè)知識(shí)圖譜體系。理論上講,如果我們想要做通用的東西,前提是我需要去構(gòu)建一個(gè)龐大的體系化的知識(shí)圖譜,而且它還得具備推理功能,這個(gè)其實(shí)還是挺難的一件事情。第三個(gè)是語(yǔ)言的表達(dá)層面,說(shuō)實(shí)話現(xiàn)在目前機(jī)器人的語(yǔ)言表達(dá)的豐富性還是不夠的,語(yǔ)言的表達(dá)這塊,怎么讓它像個(gè)人一樣的去表達(dá)這些語(yǔ)言。它能做到一定的表達(dá)的能力,比如說(shuō)像如果打分的話,100分是滿分,它可能能做到50分、60分,但是離我們所謂的比較好的效果還有一定的差距。
最后還有一個(gè)歸于它的性價(jià)比,我們做的事情,很多時(shí)候技術(shù)跟它整個(gè)的它商業(yè)化的場(chǎng)景,它倆是相輔相成的。如果說(shuō)這個(gè)技術(shù)投入過(guò)大,那可能這個(gè)事情就很難推。但是如果這個(gè)技術(shù)推起來(lái)還能賺到錢(qián),這個(gè)事情就比較容易推。像語(yǔ)音識(shí)別一樣,它已經(jīng)能賺到一點(diǎn)點(diǎn)錢(qián)了,圖像也一樣,圖像識(shí)別是它確認(rèn)已經(jīng)能夠開(kāi)始去掙錢(qián)了,而且能夠商業(yè)化的還不錯(cuò)。
網(wǎng)易科技:你們之后還會(huì)如何來(lái)推動(dòng)語(yǔ)義的應(yīng)用?
俞志晨:我們跟百度的VR這塊有合作。用VR結(jié)合圖靈AI做了一個(gè)虛擬機(jī)器人,也就是VR版的一個(gè)機(jī)器人,就相當(dāng)于Siri加一個(gè)人工形象,然后用在VR世界里面去做交互。
網(wǎng)易科技:那我明白了。我之前在很多場(chǎng)合聽(tīng)過(guò)圖靈機(jī)器人,但是我不知道現(xiàn)在你們的產(chǎn)品是用在哪些領(lǐng)域,我們生活當(dāng)中,哪些產(chǎn)品背后其實(shí)是用你們的技術(shù)?
俞志晨:很多音箱,很多機(jī)器人可以跟你對(duì)話,可以跟你互動(dòng),但背后的技術(shù)你肯定不知道是誰(shuí)家的。我們?cè)瓉?lái)最早一大塊是在微信里面,比如微信公眾賬號(hào),微信群還包括有QQ。從過(guò)去一兩年也更多是向很多兒童機(jī)器人、兒童玩具這類的產(chǎn)品用我們的語(yǔ)義技術(shù)。
網(wǎng)易科技:你們?cè)谖⑿殴娰~號(hào)里面的應(yīng)用是什么?
俞志晨:類似很多的一些公眾賬號(hào),比如你可以給它發(fā)文字、發(fā)語(yǔ)音,然后它給你回答,它就是一個(gè)類似一個(gè)自動(dòng)的個(gè)性化的群管理機(jī)器人。
網(wǎng)易科技:圖靈機(jī)器人目前主要的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
俞志晨:第一就是語(yǔ)義技術(shù),第二就是產(chǎn)品體驗(yàn)。
網(wǎng)易科技:你們目前在語(yǔ)義這塊是國(guó)內(nèi)第一嗎?
俞志晨:我只能說(shuō)我們至少在語(yǔ)義這個(gè)行業(yè)里面數(shù)一數(shù)二,因?yàn)榈谝贿@個(gè)事情是沒(méi)法兒去驗(yàn)證的,你說(shuō)我們比微軟的好,這個(gè)事情好像也沒(méi)有辦法去實(shí)際證明。但是至少說(shuō)從客戶,從整個(gè)的各種指標(biāo)來(lái)看,我們還是這個(gè)領(lǐng)域的,算是領(lǐng)先的公司吧。第二是說(shuō)在一些特定場(chǎng)景,那肯定以我們最好,比如像兒童語(yǔ)義,那我們肯定是最好的。比如同樣做語(yǔ)音和對(duì)話,微軟小冰可能會(huì)用在二次元,或者是一些偏90后、95后這個(gè)群體比較多一些,我們的年齡段更小一點(diǎn),我們可能是在05后,10后,就是偏兒童這塊更多一些。
網(wǎng)易科技:我們現(xiàn)在在市場(chǎng)上能見(jiàn)到的那種兒童陪伴的機(jī)器人,背后絕大部分都是用的你們的語(yǔ)義識(shí)別技術(shù)?
俞志晨:差不多。
網(wǎng)易科技:任何一個(gè)牌子嗎?現(xiàn)在我在機(jī)場(chǎng)看到好多商店里面不是好多那種陪伴機(jī)器人。
俞志晨:我看了一下,應(yīng)該有一半了吧。
網(wǎng)易科技:另外一半用的是誰(shuí)的?
俞志晨:有訊飛,也有用百度的,也偶爾會(huì)用其他的一些第三方的語(yǔ)義公司的,零零散散的。我去機(jī)場(chǎng)看,一半多。因?yàn)闄C(jī)場(chǎng)擺的東西不太一樣,我只能說(shuō)一半、一半多。
網(wǎng)易科技:2018年語(yǔ)義這塊,您覺(jué)得會(huì)有什么樣的一個(gè)進(jìn)展,市場(chǎng)整體上發(fā)展到一個(gè)什么狀況?
俞志晨:從市場(chǎng)來(lái)看,今年各家公司對(duì)于語(yǔ)義的關(guān)注力度會(huì)更大,很簡(jiǎn)單因?yàn)檎Z(yǔ)義其實(shí)格局還是比較確認(rèn),而像科大訊飛和百度,這幾家語(yǔ)音的市場(chǎng)份額是比較固定的,想搶也不太容易搶,視覺(jué)的那幾家也基本上占得比較緊。
第二是說(shuō)關(guān)于這個(gè)技術(shù)本身的走勢(shì)來(lái)看,在今年或者明年會(huì)有更多的一些好的產(chǎn)品能落地,這是必然的趨勢(shì)。
第三今年最重要的一個(gè)事情就是各家來(lái)圈場(chǎng)景,誰(shuí)能夠真正把場(chǎng)景拿下來(lái),這是很重要的事情。因?yàn)槲矣X(jué)得像對(duì)于語(yǔ)義來(lái)講,它跟場(chǎng)景有很大關(guān)聯(lián)性,它目前還不像語(yǔ)音和圖像那樣做得那么通用,但是語(yǔ)義實(shí)際上跟場(chǎng)景的依賴性還是比較強(qiáng)。
網(wǎng)易科技:圖靈機(jī)器人目前,你們今年主要做哪些事,今年主要的核心也是圈場(chǎng)景嗎?
俞志晨:圍繞著兒童場(chǎng)景來(lái)進(jìn)行,兒童AI是關(guān)鍵。
網(wǎng)易科技:圖靈不是已經(jīng)兒童機(jī)器人這個(gè)場(chǎng)景不是已經(jīng)圈住了嗎,你們還準(zhǔn)備圈什么場(chǎng)景?
俞志晨:兒童有核心場(chǎng)景,也還有更大的場(chǎng)景,比如穿戴、學(xué)習(xí),還有包括線下,比如商超。
網(wǎng)易科技:你們主要會(huì)圍繞兒童的市場(chǎng)來(lái)做嗎,還是說(shuō)今年你們也會(huì)做別的?
俞志晨:今年第一肯定是兒童,我們會(huì)首先把它做好。別的領(lǐng)域我們也會(huì)做,但是現(xiàn)在我估計(jì)今年下半年我們會(huì)有一些其他領(lǐng)域的產(chǎn)品,會(huì)有一些發(fā)布,到時(shí)候可以關(guān)注一下。
網(wǎng)易科技:目前在語(yǔ)義這塊是不是大部分是集中在兒童這個(gè)市場(chǎng)上的?
俞志晨:也不是,你像客服就很多,還有做輿情,其實(shí)挺多的,做輿情分析、客服,還有做一些語(yǔ)音助手,包括智能家電、音箱、車載,其實(shí)都有涉及。
網(wǎng)易科技:為什么你們沒(méi)有選擇那些場(chǎng)景,而是選擇了兒童這個(gè)場(chǎng)景呢?
俞志晨:我們覺(jué)得對(duì)于公司來(lái)講,可能這個(gè)場(chǎng)景相對(duì)來(lái)講更容易成熟一些,比較容易去把這個(gè)市場(chǎng)真的能夠做得比較成熟。
網(wǎng)易科技:其他的比如客服好像我也聽(tīng)到,也挺多的。
俞志晨:但是客服這個(gè)事情比較分散,這個(gè)市場(chǎng)也很大,但是這個(gè)市場(chǎng)很分散,很難一家把它占到一個(gè)很大的市場(chǎng)份額,就這個(gè)意思。所以這個(gè)就跟公司的選擇有關(guān)系,我們可能不太去選擇做那些定制化程度比較高的領(lǐng)域。
網(wǎng)易科技:你們先做通用性比較高的?
俞志晨:對(duì),垂直場(chǎng)景在我們看來(lái)是說(shuō),它的場(chǎng)景的通用性還是比較強(qiáng)的,我們會(huì)去做。
網(wǎng)易科技:除了兒童機(jī)器人這個(gè)市場(chǎng),你們還覺(jué)得有哪幾個(gè)市場(chǎng)也是比較不錯(cuò)的,符合你剛才說(shuō)的比較通用的,能夠大范圍真正落地的?
俞志晨:VR、AR這種當(dāng)然也可以,但是這個(gè)市場(chǎng)可能還需要再培育一下。說(shuō)實(shí)話我別的關(guān)注的倒不是很多,我現(xiàn)在最主要就是關(guān)注兒童還有機(jī)器人領(lǐng)域這兩塊。別的車載其實(shí)也還行,車載這個(gè)市場(chǎng)足夠大,但是車載這個(gè)時(shí)間會(huì)長(zhǎng)一點(diǎn)。智能家居也不錯(cuò),但是智能家居短期之內(nèi)想掙到錢(qián),可能不會(huì)那么容易。
網(wǎng)易科技:為啥不會(huì)那么容易?
俞志晨:我說(shuō)對(duì)AI技術(shù)來(lái)講,因?yàn)檎麄€(gè)市場(chǎng)處于變革期,像音箱這個(gè)領(lǐng)域現(xiàn)在量很大,吸引大家的眼球,但是音箱想掙到多少錢(qián),其實(shí)有點(diǎn)難。
網(wǎng)易科技:為啥?
俞志晨:因?yàn)樗麄冊(cè)跓X(qián),補(bǔ)貼。
網(wǎng)易科技:他們賣的價(jià)格比較低?
俞志晨:對(duì),因?yàn)樗鼜脑搭^開(kāi)始就不掙錢(qián),他們就補(bǔ)貼。補(bǔ)貼完了之后其實(shí)你,如果它整個(gè)前端不掙錢(qián)的話,后端這塊也很難真正的能收到錢(qián),這個(gè)沒(méi)有那么快。
網(wǎng)易科技:你們會(huì)進(jìn)入哪些新的領(lǐng)域?
俞志晨:我們還是圍繞服務(wù)機(jī)器人的方向去走。
網(wǎng)易科技:但是就不光是兒童了?
俞志晨:別的可能會(huì)涉及一下,但是現(xiàn)在,可能到下半年我們會(huì)明朗一些,現(xiàn)在還在做一些驗(yàn)證。
2023-02-13 12:20
2023-02-11 09:16
2023-02-08 09:40
2023-02-08 09:38
2023-02-08 09:35
2023-02-08 09:31
2023-02-07 09:52
2023-02-07 09:48
2023-02-07 09:44
2023-02-06 09:47