【中國安防展覽網 視點跟蹤】近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術走進了工業、家電、通信、汽車電子、消費電子產品等各個領域。語音識別作為人工智能發展早、且商業化的技術,近幾年來隨著深度學習技術的突破,識別準確率大幅提升,帶動了一波產業熱潮。對語音識別未來發展,各位大咖也有一些精彩論點。
語音識別結合應用場景 唱響未來新篇章
科大訊飛研究院副院長——王士進
王士進表示,語音識別是人機交互里很重要的模塊,從PC時代到現在的移動互聯時代,人機交互由鼠標鍵盤走向智能手機、Pad等的多點觸摸。到了智能硬件時代,交互則更加多元,不僅有觸摸,還有基于語音、視覺的交互。原本是以機器為中心的人機交互,逐漸走向以人為中心的自然交互。
他認為,在將來萬物互聯的浪潮下,以語音為主,鍵盤、觸摸、視覺、手勢為輔的交互時代很快會到來。
提到傳統的語音交互,王士進列舉了幾個缺點:,交互距離要近;第二,發音必須標準;第三,環境必須安靜;第四,人機不能持續對話。
科大訊飛在2015年提出AIUI,旨在解決上述問題同時期望在人工智能時代提供一種智能的人機交互界面。AIUI提供遠場喚醒和識別降噪方案,兼容全國近17種方言,可以進行全雙工交互和基于業務場景的多輪對話,同時結合訊飛超腦的認知智能使得機器進行更智能的交互。
AIUI實現了軟硬一體化、云端一體化、技術服務一體化,通過三個一體化提供人機智能交互整體解決方案,使得用戶可以快速切換到新的業務場景。
在提到基于AIUI交互技術的一些商業化嘗試時,王士進列舉了幾種:
在交流方面,科大訊飛在05年推出了聽見智能會議這款產品。一般來說,會議場景的同傳準確率為80%左右,而智能會議轉寫準確率則能達到90%以上,之后,其在醫療和司法系統進行了應用。另外,科大訊飛還推出了便攜翻譯機,易于隨身攜帶,方便遠程實時交流。
在電視方面,早的電視是用數字加上下左右按鍵控制僅有的十幾個臺,而現在的智能電視后臺對接海量資源,通過訊飛智能電視助手可以進行方便的語音交互,節省時間。
在汽車方面,由于人在駕駛時候手不能離開方向盤,故把語音引入代替手進行交互會方便許多。實際上相比其他應用場景,語音識別由于汽車場景的噪音更強,面臨更大挑戰,而科大訊飛也在基于車載的語音識別做了許多優化,更在寶馬、奔馳、通用舉行的車載語音識別比賽取得名,有效的支撐了車載場景的交互。
在機器人方面,機器人與人的語音交互滿足自然交互、個性化服務以及基于業務場景的整合服務,可以方便的任意打斷,在理解用戶的需求下進行的內容推薦和服務。
語音識別和自然語言理解都是基于統計和概率體系,所以商業化過程建議選擇人受到一定限制(如車載)或者很難做正確(如會議同傳)的場景,然后隨著技術的進一步成熟,可以進入到更多的場景。
后,王士進總結道,“語音識別和人機交互技術在進行技術優化的同時更要結合應用場景,終可使得技術完善,產業更好的發展。”
百度語音技術部聲學技術負責人——李先剛
提到這些年對手機百度語音搜索的不斷優化過程,李先剛認為要做好這樣一個產品,先要收集相關數據,然后將語音識別應用推廣到相關產品線上供用戶使用,用戶使用后反饋回來數據形成完整鏈條,終達到非常的狀態。
他把輸入法在語音識別中的作用表述為:輸入法這一場景對語音識別性能提升有非常大的幫助。
而今年,百度在語音技術方面的進展包括基于GramCTC的端對端語音識別系統以及端對端說話人識別技術。
基于CTC的端對端語音識別系統是目前主流的工業系統,在2015年底,百度實現了CTC端對端語音識別系統的上線。而今年,百度進一步提出了GramCTC算法。
主流的說話人識別技術使用經典的DNN-IVECTOR技術,其框架基于統計模型,并將DNN引入此框架去學習。
可以看到的是,語音識別已走向大數據和端對端的道路,百度也將把說話人識別技術向此發展,進一步提升相關性能。
李先剛表示,人臉識別與說話人識別有技術共性,二者之間的差異僅僅只是人臉識別對象可以是固定尺寸的圖片,而語音的時長會有很多變化。因此,百度說話人識別技術借鑒了目前人臉識別好的方法——度量學習,搭建了端對端度量學習的說話人識別系統。百度內部的實驗顯示,基于端對端的說話人技術顯著提升了說話人識別的性能。
從商業化的角度分析語音識別,可將其應用分為兩個維度,個是近場和遠場,第二個是人配合機器說話和人對人說話的不同說話風格。經過這樣劃分會發現很多語音場景其實是處在不同的語音象限里面,目前業界所做的近場人對機器說話的識別準確率可達90%以上,但另外幾個場景所做不盡人意。
在李先剛看來,隨著語音技術的推進,輔之商業化情景必將推動產品和技術的發展。
搜狗語音交互技術中心研發總監——陳偉
從2012年到現在,隨著數據和算法的提升,搜狗的語音識別的識別錯誤率是逐年下降的。陳偉分享了一組數據:到目前為止,搜狗輸入法每天的語音識別請求量高達2億次,每天產生語料達到18萬小時。
陳偉表示,搜狗在2016年發布知音引擎,對外輸出完整的語音交互解決方案,也一直在探索語音識別和交互的不同場景和經驗。語音識別可以更好提升輸入、記錄、交流的效率,其可分為聽寫和轉寫,聽寫更多要求實時性,轉寫則面向客服數據,不要求實時。另外,語音識別技術面向不同客戶,除了直接提供給消費者,還有一些公司、企業如法院、醫院等,語音識別的應用場合則更多是在演講、直播、語音分析中。
語音識別不是一個單獨的技術,其需要同其他技術進行融合,比如機器同傳、語音交互,未來的產品將會是技術與技術的組合,產品與產品的組合。
對如何做出一款好的語音交互產品,陳偉認為首先是要重視場景和知識。只有技術(ASR、NLU等)與具體應用場景比如車載、智能家具、可穿設備結合在一起,才能得到穩定的產品。另外,僅僅有技術是不夠的,還需要技術創新。在得到良好的使用體驗之后用戶基數會擴大,帶來更多數據,這些累積的數據也是推動技術提升的關鍵。只有有了產品的迭代、有了真實的數據才能更好的分析出用戶需求,更好的推動產品發展。
他表示,技術與產品缺一不可。
“語音交互以技術為驅動,加之好的運算力帶來大量數據,以此進行迭代,不斷通過技術和產品的耦合得到更好的產品。”
思必馳CMO——龍夢竹
“目前的語音產品識別率再高,也只是作為一個參考。”
龍夢竹提到,在識別率的數字背后,諸如降噪、遠場、回聲消除及聲源定位等也需要關注。
那這幾個詞在整個語音技術里面有什么作用呢?
其可以影響識別率和準確性以及是判斷語音交互產品是否實用的重要方向。
目前,各個公司做的都是端到端的,非配合的私人交互系統,在這整個系統里基本分為三個層面:從感知、到認知、到抽象思維的智能。
首先從感知的方向,要保障機器能夠聽得清,在克服環境、降噪的方面有很大挑戰的。以思必馳為例,其依靠強大的數據庫,已經把錯詞率降低到了7.19%,比業界普遍的10%有了非常大的效率提升。
另外,聽清以后需要讓機器快速反應。常常會有客戶好奇“你們的產品是本地還是云端?”實際上,現在業界包括思必馳所做的都是本地+云端,一些簡單的喚醒詞、指令可能會放在本地。思必馳目前的本地識別指令高支持三千條,當然,高支持數目和產品的硬件配置、系統是相關的。而更多的需要交流的,需要機器思考的部分放到云端。
后,機器能夠聽清并且能夠快速反應了,反應出來的效果如何?這個效果用專業術語可以稱為TTS,TTS的優劣很大程度會決定產品體驗的優劣。許多人理解的TTS可能是明星的合成音,而這些合成音不能適用于所有場景。
目前業界提出的97%、98%、99%的識別率這只是單獨針對語音識別而言,在不同的領域、場景下,針對不同業務方向的語音識別和語意理解其實是有層次不齊的,這個圖顯示了在家庭和車載環境下不同的準確率。
龍夢竹談到,無論在哪個領域做語音交互技術,都必須要滿足幾個要求:
要滿足用戶剛需;
第二不一定是高頻使用,但在某一場景能讓用戶形成依賴性;
第三,語音技術背后一定要有第三方的內容和服務作支持,因為它只是一種交互手段;
“我們一再強調的是,語音只是一個交互的手段,而不是一種功能。”現在的語音還沒有達到全國人民普及的程度,但未來一定會實現。而這一手段,其背后第三方的內容和服務是比語音本身更重要的東西。
后,交互體驗一定要好。