《經(jīng)濟學人》近日刊登文章,稱計算機在翻譯、語音識別和語音合成上都獲得了很大的進步,但它們?nèi)匀徊涣私庹Z言的含義。以下是原文內(nèi)容:
“對不起,戴夫,恐怕我不能這樣做?!彪娪啊?001:太空遨游》里,電腦“哈爾9000”冷冰冰地說。它拒絕給冒險出艙的宇航員戴夫 鮑曼開門,這個情節(jié)反應(yīng)了人們對智能計算機的擔憂。
1968年該片上映時,可以與人類交流自如的計算機似乎就像人類登上木星那樣遙不可及。在那之后,我們已經(jīng)取得了巨大進步,制造出了可以和人交談的機器,這些機器可以做出接近于自然語言的回應(yīng)。即便如此,溝通也仍然存在困難。如果《2001:太空遨游》使用的是當前的語言技術(shù),那么對話就會是這樣:“打開艙門,哈爾?!薄拔液鼙?,戴夫。我聽不懂你說的話?!薄按蜷_艙門,哈爾?!薄按鞣?,我在eBay上搜索了‘艙門’,結(jié)果如下……”
可以處理突發(fā)事件、具有創(chuàng)意,能真正進行交談的計算機仍然距離我們很遙遠。當被問及哈爾、終結(jié)者這種機器人會帶來怎樣的影響時,人工智能(AI)研究者只會付之一笑。雖然除了少數(shù)套話式的任務(wù)之外,當前的語言技術(shù)還遠遠不能取代人類,但最終它們也會變得比較好用,為人類提供一些幫助,這樣我們可以把更多的時間放在自己覺得有趣的事情上了。在之前60年里,大多數(shù)這類項目的成果都很令人失望,但在過去幾年里,我們?nèi)〉玫倪M展開始比較接近早期開拓者的期望了。
語音識別取得了顯著進步。機器翻譯也從“效果滑稽”變得“很有希望”,可能不久之后,機器翻譯的結(jié)果只需要人類進行少量的編輯就可以達到不錯的水平。電腦個人助理,比如蘋果Siri、亞馬遜Alexa、谷歌(微博)Now和微軟小娜,它們可以理解各種各樣的問題,并且以一種自然的方式提供準確而有用的回答。 Alexa甚至可以回復(fù)“給我講個笑話”這樣的問題,但它必須要調(diào)用一個笑話數(shù)據(jù)庫才行。計算機是沒有幽默感的。
蘋果在2011年推出Siri的時候,這個語音助理的效果令人失望,所以很多人都沒有使用它。咨詢公司Creative Strategies表示,即使有95%的智能手機用戶嘗試過使用個人助理,但只有約三分之一的智能手機用戶會定期使用它。很多用戶可能不知道Siri已經(jīng)獲得了多大的改善。
1966年,約翰 皮爾斯(John Pierce)在美國的貝爾實驗室工作,他引領(lǐng)團隊研發(fā)了第一個晶體和第一顆通信衛(wèi)星之后,獲得了極高的聲譽,因此被分派了一個任務(wù):審查美國科學院的自動語言處理技術(shù)。在那之前的一段時間里,學者們信誓旦旦地說,要不了幾年就可以實現(xiàn)自動語言翻譯。
但皮爾斯的報告給他們潑了一盆涼水。該報告回顧了過去十年里機器翻譯和自動語音識別的進展,然后總結(jié)說,語言技術(shù)研究的成果被夸大了,專家的信誓旦旦并不可靠。皮爾斯在1969年寫道,資助者和研究人員經(jīng)常自欺欺人,“并沒有獲得簡單、清楚、確實的成果”。在那之后,美國政府在這個領(lǐng)域投入的資金大大縮水,語言技術(shù)研究進入了二十年的冬眠期。
賓夕法尼亞大學語言學教授、語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,擁有海量人類語言文本和錄音)負責人馬克 利博曼(Mark Liberman)說,從冬眠中蘇醒是正常的。利博曼對語言技術(shù)的歷史非常了解。以前,研究人員對自己的研究方法守口如瓶,并且會用一些難以評估的方式來描述研究成果。但從20世紀80年代開始,美國國防高級研究計劃局的查爾斯 韋恩(Charles Wayne)鼓勵他們嘗試“共同作業(yè)”。
逐步發(fā)展
研究人員會對一套做法達成了共識,無論是讓計算機進行語音識別,辨別說話者的身份,對文本進行情緒分析,還是開展語法分解、語言識別、手寫識別或是其他各種任務(wù)。他們需要列出一些需要改進的指標,并且要共享用來訓練軟件的數(shù)據(jù)集,讓外部人員來測試他們得出的結(jié)果。這樣一來,整個過程就變得更加透明了。資金再次涌來,語言技術(shù)開始逐步獲得改善,雖然進展比較緩慢。
語言技術(shù)的很多早期方法(特別是翻譯)陷入了一個概念性的死胡同——基于規(guī)則的方法。在翻譯中,這意味著嘗試編寫規(guī)則來分析源語言的句子文本,將其分解成一種抽象的“語言”,并根據(jù)目標語言的規(guī)則來重建它。這些方法最初看起來很有前景。但是語言中模糊和不規(guī)則的東西太多,所以這種翻譯系統(tǒng)就變得非常復(fù)雜,而且效果也不如人意。但是在應(yīng)用了統(tǒng)計方法(通常被稱為“蠻力”方法)之后,幾乎所有的語言技術(shù)都獲得了很大的提升。
這種方法需要軟件搜索大量的數(shù)據(jù)、尋找模式,并從先例中學習。例如,在解析語言(將其分解為語法組件)的時候,軟件需要學習人類已經(jīng)解析完成的大量文本,然后利用學到的東西,對以前沒有見過的文本如何解析做出最佳猜測。在機器翻譯中,軟件學習人類已經(jīng)翻譯過的數(shù)以百萬的例句,然后尋找模式。在語音識別中,軟件從人類的語音錄音和相應(yīng)的文字轉(zhuǎn)錄結(jié)果中進行學習。由于處理器的性能不斷提高,存儲數(shù)據(jù)的成本下降,以及可用的數(shù)據(jù)出現(xiàn)了爆炸性增長,這種方法最終產(chǎn)生了效果。
數(shù)幾十前就已經(jīng)問世的數(shù)學技術(shù)開始大顯身手,掌握了大量數(shù)據(jù)的大公司必然可以從中受益。BabelFish這樣的在線工具給出的翻譯結(jié)果常?;尚?,令人失望,但谷歌翻譯的讓人覺得很有信心,蘋果也說服了數(shù)以百萬計的iPhone用戶在手機上和Siri對話。最大的進步是從大約五年前,由數(shù)字神經(jīng)網(wǎng)絡(luò)(DNN)加持的深度學習出現(xiàn)的時候開始的。
DNN經(jīng)常被說成具有和人類大腦類似的特質(zhì),是在軟件中相互連接的“神經(jīng)元”,在學習過程,不同的連接可以變得更強或者更弱。但是語言技術(shù)公司Nuance的研究主管尼爾斯 蘭科(Nils Lenke)認為,“DNN實際上不過是一種數(shù)學模型”,業(yè)界在幾十年前就已經(jīng)理解它的基本原理了。真正改變的因素是硬件。幾乎是在一種偶然的情況下,DNN研究人員發(fā)現(xiàn),用圖形處理單元(GPU,視頻游戲中流暢地渲染圖形靠的就是它)來處理神經(jīng)網(wǎng)絡(luò)效果極佳。
在計算機圖像中,基本的小形狀根據(jù)相當簡單的規(guī)則移動,但是形狀和規(guī)則的數(shù)量都很多,需要進行大量的簡單計算。DNN搜索數(shù)據(jù)進行學習的時候,GPU就被用來微調(diào)分配給DNN中“神經(jīng)元”的權(quán)重。這種技術(shù)已經(jīng)為各種深度學習的質(zhì)量帶來了巨大飛躍,包括手寫識別、面部識別和圖像分類?,F(xiàn)在研究者用它們來改進各種語言技術(shù),通常會出現(xiàn)高達30%的效果提升。在這種情況下,語言技術(shù)已經(jīng)從“能用”變得“比較好用”。但是到目前為止,沒有人知道它要怎樣才能從“還不錯”變得“一直很出色”。
能說話的機器
電影《機器人總動員》(WALL-E)描寫了在未來,所有的人類都生活在一架太空飛船里,那時候,由于環(huán)境惡化,地球已被遺棄。人類的種種需要都由機器來照顧,人類只需要躺在智能懸浮椅子享受就可以了,所以所有人都變得肥頭大耳。即使是船長也不是真的在指揮飛船,真正的飛行員是一個智能機器人,名叫Auto,它說話很尖刻。就像很多科幻小說的情節(jié)一樣,Auto最終也篡了權(quán)。
說話是人類的顯著特征之一,所以你很難想象機器可以像人類一樣真正交談,除非把它們設(shè)想為超級智能。但如果它們超級聰明,沒有人類的缺陷,那又很難想象它們不會接管一切權(quán)力了——這樣似乎不僅對它們好,而且對人類也好。即使是在一個相當美好的未來中,比如《機器人總動員》中的未來,所有的工作都交給機器來做,你也很容易看到,如果生活太缺乏挑戰(zhàn),這對人類也是沒什么好處的。
幸運的是,可以說話的機器可以幫助人們完成很多枯燥的任務(wù)。機器變得越來越善于處理那些例行公事型的麻煩事情。很快,用戶就可以使用語調(diào)自然的語音命令來讓機器辦理事情了。曾經(jīng)一段時間,在一戶家庭中,只有一個人知道怎么用計算機或者錄像機。后來,圖形界面(圖標和鼠標)和觸摸屏使這樣的技術(shù)讓科技產(chǎn)品的使用變得很簡單。風險投資公司Andreessen Horowitz的Frank Chen認為,人與機器之間的自然語言接口,是向所有人提供信息和服務(wù)的一個新進展。他說,硅谷正在進入人工智能技術(shù)的黃金時代。20世紀90年代,早期技術(shù)公司建立網(wǎng)站的時候,它們并不知道為什么要這么做,只是覺得應(yīng)該這么做。同樣,現(xiàn)在每家公司都在努力發(fā)展自然語言技術(shù)。然而他也說,“從語音領(lǐng)域角度來看,我們好像是在1994年?!?/P>
而1995年即將到來。這并不意味著人們以后僅僅通過交談的方式與電腦溝通。網(wǎng)站并沒有讓電話變得過時,移動設(shè)備也沒有讓臺式電腦變得過時。所以,當人們可以和機器進行語音交互的時候,有時候還是會繼續(xù)使用文本交互方式。
不是所有人都會選擇語音交互。例如在日本,人們會避免在公眾場合進行語音交談,因此Siri在上班時間使用率較低,但在晚上和周末比較高。語音技術(shù)的發(fā)展是件好事,用戶不用打字就可以寫作,老年人可能也會發(fā)現(xiàn)用語音輸入比在小鍵盤上打字更加容易一些。而不會打字的幼兒現(xiàn)在也可以和機器說話了。
打字困難的殘障人士也將從中受益。微軟的一款新設(shè)備可以幫助肌萎縮性側(cè)索硬化(ALS,病人身體幾乎不能動,但頭腦正常)患者用他們的眼睛在屏幕上選擇字母的方式“說話”。其中的關(guān)鍵是預(yù)測文本、學習用戶的習慣,并且改進預(yù)測方式。有經(jīng)驗的用戶每分鐘可以說大約15個單詞。
人們甚至會尋求機器的陪伴。微軟在中國推出的聊天機器人小冰學會了如何回話可以讓交談持續(xù)得更久。沒有人會認為小冰是人類,但它確實能讓用戶變得比較“暢所欲言”。
另一個可能從該技術(shù)中受益的是規(guī)模較小的語言社群。計算機網(wǎng)絡(luò)可能會出現(xiàn)一種“贏家通吃”的效應(yīng):如果有很多好的軟件都是英語或者中文的,那么較小的語言在網(wǎng)上就變得價值很小。因而這些語言的生存可能會受到威脅。但瀕危語言聯(lián)盟的羅斯 佩林(Ross Perlin)指出,有了新軟件,研究人員可以用更快的速度把小語種記錄下來。而足夠多的數(shù)據(jù)為小語種資源的開發(fā)帶來了可能性。硅谷巨頭已經(jīng)對自己的軟件進行了幾十種語言的本地化;在神經(jīng)網(wǎng)絡(luò)的幫助下,制作的新版本的速度提高了。
自然語言技術(shù)的興起存在兩個重大問題:一是影響隱私,二是會顛覆很多工種。
越來越多的設(shè)備總是處在“聆聽”狀態(tài)。數(shù)字助理(比如Alexa、小娜、Siri和谷歌助理)會被默認設(shè)置為等待提示狀態(tài),你說“Hey,Siri”或“OK,谷歌”,就可以激活它們。但是,衣服口袋里有這樣一個永遠在線的麥克風,不免會讓注重隱私的人感到困擾。而用具體某個用戶的語音、詞匯、書面文檔和習慣來訓練語言軟件,改進它的效果,也存在著類似的問題。
每家大公司的位置服務(wù)——就連手機中檢測微小位置變化的加速度計——都在不斷改進它們猜測“用戶的需求是什么”的準確性。如果一個數(shù)字助理的行為讓人感到驚訝(“藥劑師就在附近——你想買更多的痔瘡膏嗎,史蒂夫?”)可能很多人都想要重新思考一下,是新服務(wù)的方便性更可取呢,還是保護隱私更重要??萍脊究梢栽谶@方面發(fā)揮一些作用,為用戶提供更多的選擇;最新的iPhone面朝下放在桌子上的時候,語音助理就不會被激活。但是黑客肯定也會找到一些方法來突破這類關(guān)卡。
另一個大問題是工作崗位。只要一個工作是例行性的,它就會有可能被自動化。一個很好的例子是客戶支持服務(wù)。當人們聯(lián)系公司,尋求幫助的時候,最初的對話常常都是一些例行問答。員工需要驗證客戶的身份,然后按照既定程序處理問題。而語言技術(shù)現(xiàn)在已經(jīng)足夠成熟,可以承擔大量這樣的任務(wù)。
在一段很長的過渡時期中,仍然是需要人類參與這些工作的,但他們所做的事情不再是例行公事。 Nuance是一家銷售自動化網(wǎng)上/電話幫助系統(tǒng)的公司,它對語音生物識別技術(shù)(客戶說一句“我的聲音就是我的密碼”就能識別身份)非??春?。該公司的高級經(jīng)理布雷特 博蘭尼克(Brett Beranek)說,這種系統(tǒng)使用約200個參數(shù)來識別說話者身份,可能比指紋識別系統(tǒng)更安全。它也不像客戶和支持人員使用PIN、密碼和安全問題進行多步驟識別那么乏味。英國銀行巴克萊向??屯瞥隽诉@種客戶支持服務(wù)后,五個月內(nèi)的注冊率達到了84%。
Datalingvo公司道德尼基塔 伊萬諾夫(Nikita Ivanov)說,智能手機上的數(shù)字助理犯一些錯誤無傷大雅,但商業(yè)應(yīng)用對錯誤的容忍度接近于零。Datalingvo是一家硅谷初創(chuàng)公司,可以回答和企業(yè)業(yè)務(wù)數(shù)據(jù)有關(guān)的、使用自然語言提出的問題。如果用戶想要知道在加利福尼亞州上個月的哪些在線廣告銷售量最大,該軟件則會自動將轉(zhuǎn)換為數(shù)據(jù)庫查詢。但在幕后,Datalingvo的工作人員會進行人工審查,以確保這個查詢是正確的。因為這種技術(shù)在早期確實會犯下錯誤,得出一些不準確的數(shù)據(jù),而用戶可能會因此做出錯誤的決策,所以需要人工進行審查。
這個過程也可以反向工作:不是用自然語言輸入來產(chǎn)生數(shù)據(jù),而是用數(shù)據(jù)來產(chǎn)生語言。 Arria是一家總部位于倫敦的公司,它制造的軟件可以將電子表格中的數(shù)據(jù)自動轉(zhuǎn)換為書面描述,并且提供趨勢報告。該公司首席戰(zhàn)略官馬特 格勞德(Matt Gould)認為,首席財務(wù)官員可以用它來給董事會撰寫常規(guī)性的分析報告,把時間節(jié)約下來做更具創(chuàng)意的事情。
牛津大學經(jīng)濟學家卡爾 貝尼迪克特 弗雷(Carl Benedikt Frey)研究了人工智能可能對勞動力市場的影響,他得出結(jié)論說,受沖擊最小的工作是那些在復(fù)雜的社交互動中對創(chuàng)造力和技能要求更高的工作。但不是每個人都有這些特質(zhì)。呼叫中心需要的人數(shù)會減少,因為更多的日常工作將由自動化系統(tǒng)來完成,不過那些棘手的查詢工作仍然會由人類來處理。
以前也出現(xiàn)過類似的事情。谷歌搜索最初誕生的時候,幾秒鐘就會返回搜索結(jié)果。如果人工進行搜索,可能需要幾個小時、幾天或幾年的時間。谷歌搜索幫了研究員、圖書館員或記者的大忙。這樣的創(chuàng)新并沒有摧毀這些工作崗位,只是改變了它們。
機器可以幫人們做一些苦差事,讓大家有時間和精力去做更有趣的事情,不僅如此,它們甚至可以創(chuàng)造一些額外的工作機會。但是,對于不能適應(yīng)這種變化的人來說,這也是非常痛苦的過渡。社會變革(婦女解放,勞動力市場的全球化等)帶來了動蕩,一些人因此陷入了困境。當催生這些變化時的是機器時,而且當這些機器看起來越來越像人類的時候,事情也會變得越發(fā)艱難。人們對待沒有生命的東西已經(jīng)很擬人化了:你肯定看到過一些人對著電腦大喊大叫。機器說得越多,它們就越是給人一種善解人意的感覺,用戶就越容易將把它們當作人來看待。
這提出了一個深層次問題:語言被廣泛視為人類最獨特的特征之一,人工智能研究人員堅持說智能機器的思維方式和人不一樣,但如果它們能像人一樣傾聽和談話,那么它們算是什么呢?當人類教會機器使用語言的時候,人和機器之間曾經(jīng)明顯的界限就會變得模糊。(編譯/云開)
2024-12-30 09:01
2024-12-30 08:58
2024-12-30 08:56
2024-12-29 09:50
2024-12-29 08:50
2024-12-29 08:49
2024-12-29 08:48
2024-12-29 08:46
2024-12-29 08:45
2024-12-28 11:45