【中國安防展覽網 視點跟蹤】 12月14日消息,彭博社發布文章稱,要能夠與我們的電子設備進行自然的對話,那語音識別技術必須要有更加顯著的改善。為此,各家科技巨頭紛紛積極收集任何它們能夠收集到的語言、口音和方言語音。
語音識別遇瓶頸 何時才能更進一步?
以下是文章主要內容:
亞馬遜的Echo智能音響讓家家戶戶都有帶人工智能的個人助手變得切實可行。那些擁有該款聲控設備的人都對Alexa贊譽有加,稱贊它能夠幫助通過Uber叫車,訂購比薩餅,又或者檢查10年級學生的數學作業。亞馬遜稱,每天有逾5000人表達對Alexa的喜愛。
另一方面,Alexa信徒們也知道,除非你緩慢地用非常清晰而的語言去跟她說話,否則她很可能會跟你說,“對比起,我不知道那個問題的答案。”有位顧客在亞馬遜的網站上評價道,“我愛她,我恨她,我愛她。”不過他還是給于Alexa五星評價。“你很快就會學會如何用一種她會明白的方式跟她說話,這就像是跟一個不高興的小孩子說話一樣。”
語音識別在過去幾年里取得了很大的進展。但這還不足以令該技術普及到日常生活的方方面面,還不足以人機交互新時代的到來,還不足以讓人們輕松自如地與身邊所有的設備(如汽車、洗衣機和電視機)進行交談。在可預見的未來里,這種情況可能還會延續。
發展障礙
那么是什么因素導致語音識別還不能更進一步呢?部分因為驅動該項技術的人工智能還有不小的改進空間。另外,所需數據嚴重缺乏——即往往嘈雜環境下多種語言、口音和方言的人類語音的音頻。
因此,亞馬遜、蘋果、微軟和百度紛紛著手在范圍內收集海量的人類語音數據。微軟在各地設立據點,記錄志愿者在家庭環境中說話的聲音。亞馬遜*都在將Alexa請求上傳到其龐大的數據庫。百度在中國忙于收集各種方言的語音。收集過后,他們會將那些數據用于教導他們的計算機如何分析、理解和響應語音指令和請求。
對于這些科技巨頭而言,挑戰在于找到方法去捕捉自然真實的對話。負責領導百度在加州森尼維爾的人工智能實驗室的亞當·科茨(Adam Coates)指出,語音識別的準確率即便有95%也不足夠。“我們的目標是將錯誤率壓低到1%以下。”他說,“做到了這一點,你才能夠真正相信設備理解你說的話。那將會是變革性的進展。”
不久以前,語音識別還處于非常初期的發展階段。在2006年的一次演示中,微軟運行于Windows的語音識別技術的早期版本在眾多分析師和投資者面前竟然將“mom”(媽媽)轉錄成“aunt”(阿姨)。蘋果5年前推出Siri時,該個人助手頻頻出錯,備受嘲笑。它經常給出錯誤的結果,又或者不能夠準確聽清問題。被問到吉莉安·安德森(Gillian Anderson)是不是英國人時,Siri卻展示了一系列的餐館。如今,微軟稱其語音引擎的準確率已經不亞于專業轉錄員,Siri正贏得一定的尊重,Alexa也讓人們看到了未來的希望。
神經網絡
這一進展很多程度上要歸功于神奇的神經網絡。神經網絡是一種基于人腦架構的人工智能形式,它不需要明確的程序化就能學習,通常只需要大量廣泛多樣的數據。語音識別引擎消化的語音數據越多,它就越能夠理解不同的語音,就越接近于實現在多種情景中用多種語言進行自然對話的終目標。
因此,各大巨頭在爭奪大批的語音資源。“我們給系統注入的數據越多,它的表現就會越好。”百度科學家吳恩達(Andrew Ng)表示,“正因為此,收集語音成為了一種資本密集型的活動;有這么多數據的機構組織并不多。”
當業界在1990年代開始積極發展語音識別技術時,微軟等公司主要依靠來自研究機構公開的可用數據,比如語言學數據聯盟。該語音與文本數據庫于1992年創立于賓夕法尼亞大學,擁有美國政府的支持。后來,科技公司們紛紛開始收集自有的語音數據,部分公司通過給志愿者錄音進行收集。如今,隨著聲控軟件日益普及,它們從自有的產品與服務收集大量的數據。
當你叫你的手機去搜索內容,播放歌曲,又或者提供導航路線時,你很有可能會被公司錄音。(蘋果、谷歌、微軟和亞馬遜均強調有匿名化用戶數據來保護個人隱私。)在你問Alexa天氣怎么樣或者體育比賽的比分時,設備會利用你的語音請求來改進其對自然語言的理解(盡管“她”不會偷聽你的對話,除非你有說她的名字)。Alexa項目科學家尼克·斯特羅姆(Nikko Strom)指出,“通過我們的設計,Alexa會隨著你的使用的增多而變得越來越智能。”
兩大挑戰
語音識別的一大挑戰在于,使得該項技術熟悉各種各樣的語言、口音和方言。也許,這一點在中國尤為重要。為了采集全國各地的方言語音,百度今年在春節期間展開了一項營銷推廣行動。該搜索巨頭稱該舉是“方言對話項目”,并向人們承諾,如果他們參與進來,他們就能幫助人人都能用自己的方言跟百度對話的未來。在兩周的時間里,該公司錄得超過1000個小時的語音來接入它的計算機。很多人之所以愿意無償參與進來,是因為他們為自己家鄉的方言感到驕傲。四川的一位高中教師對于該項目感到非常興奮,因而他號召全班學生錄制了超過1000首用四川話朗讀的古詩語音。
另一挑戰是:教導語音識別技術理解嘈雜背景下(比如在酒吧和在體育場)傳來的指令。微軟部署了一款名為Voice Studio的Xbox應用來收集用戶在進行射擊游戲或者看電影時的對話聲。該公司為參與者提供包括積分和游戲裝備在內的各種獎品,吸引了數百位愿意貢獻自己玩游戲時的聊天聲音的用戶。該項目在巴西尤其奏效,微軟在當地的子公司在Xbox主頁面上大力推廣Voice Studio應用。那些數據用來打造Cortana的巴西葡萄牙語版本。該版本于今年早些時候推出。
各家公司也在針對特定的情境設計語音識別系統。微軟一直在測試能夠回答機場旅客的請求的技術,它希望其技術能夠不受機場持續不斷的航班通知聲音的干擾。該公司的技術目前還被應用于麥當勞外賣車道的自動訂餐系統。經過訓練,它能夠做到不受諸如孩子尖叫聲的各類雜音的感染,因而能夠準確理解復雜的訂單指令,甚至能夠分辨出用戶想要的調味品。亞馬遜則在汽車中進行測試,它希望Alexa能夠克服道路噪聲和敞開車窗帶來的挑戰。
少用數據
在從世界各地收集數據的同時,科技巨頭們也在想方設法地用更少的數據來改進語音識別技術。在微軟研究語音識別逾20年的語音科學家黃學東指出,公司在麥當勞測試的技術比其它使用多得多的數據的語音識別系統要更加。“即便使用的數據不是多的,你也總能夠取得突破。”
谷歌總的來說也奉行少即是多的理念,它在部署零碎策略來利用難以理解的聲音單元構建詞語和短語。該公司對于其語音識別系統的目標是,只需一個變化就能解決多個問題。對于所積累的數據集,谷歌會將數萬個通常只有兩到五秒長的音頻片段連在一塊。谷歌的研究人員弗朗索瓦茲· 比倫發斯(Fran?oise Beaufays)指出,這一過程需要較少的運算能力,更加容易測試和調整。百度方面則在研究更加的算法來簡化語言的學習。
問問像吳恩達這樣的研究人員,什么時候才能夠跟數字助手進行自然的對話。沒有人知道答案。神經網絡仍舊非常神秘,即便對于那些專家而言也是如此。研究人員目前的工作很多都是反復試驗;在一處地方進行一項改動后,你永遠都無法確定其它地方會產生什么樣的變化。鑒于當下的技術和方法,這一過程很可能要持續很長一段時間。不過,吳恩達、黃學東、比倫發斯以及其他的科學家認為,你很難預料什么時候會出現那種大大加速研究進程,讓Alexa和Siri變成真正的交談者的突破。