上周,百度宣布語音技術(shù)全系列接口*免費(fèi)開放,提供語音識別、語音合成、語音喚醒多平臺SDK (軟件開發(fā)工具包),支持和合作伙伴。語音交互是人與機(jī)器“交流”的重要環(huán)節(jié),百度宣布語音技術(shù)全系列接口*免費(fèi),或?qū)硪粓鼍薮蟮男袠I(yè)變革。
智能語音技術(shù)是人工智能產(chǎn)業(yè)鏈上的關(guān)鍵一環(huán)。人工智能產(chǎn)業(yè)鏈主要分為三個(gè)層次。底層是基礎(chǔ)設(shè)施,包括芯片、模組、傳感器,以及大數(shù)據(jù)平臺、云計(jì)算服務(wù)和網(wǎng)絡(luò)運(yùn)營商;中間層是基礎(chǔ)技術(shù)研究和服務(wù)提供商,包括深度學(xué)習(xí)、計(jì)算機(jī)視覺、語音技術(shù)和自然語言處理以及機(jī)器人等領(lǐng)域;上層是行業(yè)應(yīng)用,包括智能家居、可穿戴設(shè)備、無人駕駛、虛擬助理、家庭機(jī)器人等。
語音識別技術(shù)原理是什么?
語音識別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓(xùn)練和識別。訓(xùn)練是指對預(yù)先收集好的語音進(jìn)行信號處理和知識挖掘,獲取語音識別系統(tǒng)所需要的“聲學(xué)模型”和“語言模型”;識別是對用戶實(shí)時(shí)語音進(jìn)行自動(dòng)識別。識別過程通常又可以分為“前端”和“后端”兩大模塊:“前端”主要作用是進(jìn)行端點(diǎn)檢測(去除多余的*和非說話聲)、降噪、特征提取等;“后端”作用是利用訓(xùn)練好的“聲學(xué)模型”和“語言模型”對用戶說話的特征向量進(jìn)行統(tǒng)計(jì)模式識別,得到其包含的文字信息。此外,后端模塊還存在一個(gè)“自適應(yīng)”的反饋模塊,可以對用戶的語音進(jìn)行自學(xué)習(xí),從而對“聲學(xué)模型”和“語音模型”進(jìn)行必要的“校正”,進(jìn)一步提高識別的準(zhǔn)確率。
智能語音技術(shù)將在哪些領(lǐng)域發(fā)揮作用?
智能家居:找到合適的語音入口是挖掘智能家居背后用戶價(jià)值的關(guān)鍵。硬件本身具有入口價(jià)值,智能音箱、智能電視、家庭機(jī)器人等都有可能成為合適的入口。通過前端語音交互提供入口,后端互聯(lián)網(wǎng)提供服務(wù)的方式完成物聯(lián)網(wǎng)時(shí)代家居場景下的商業(yè)模式轉(zhuǎn)換。
智能車載:語音交互在車載場景中存在剛需,也會成為zui先爆發(fā)的領(lǐng)域。未來,車載設(shè)備提供商可以通過補(bǔ)貼用戶來搶占汽車內(nèi)顯示屏市場,通過用戶用車行為數(shù)據(jù)的搜集與挖掘,為保險(xiǎn)公司和車廠提供信息,保險(xiǎn)公司根據(jù)數(shù)據(jù)設(shè)立分層級的保費(fèi)機(jī)制,激勵(lì)規(guī)范駕駛行為。這樣,信息流和服務(wù)流將不斷在生態(tài)系統(tǒng)中流轉(zhuǎn),不斷挖掘更大價(jià)值。