【安防展覽網(wǎng) 品牌專欄】9月1日消息,科大訊飛連發(fā)三款訊飛智能錄音筆新品,型號分別為SR901、SR702和SR101,以及*智能TWS耳機(jī)iFLYBUDS。
其中,SR901和SR702*搭載離線轉(zhuǎn)寫功能,支持OCR文字提取,進(jìn)一步延續(xù)了SR系列在智能轉(zhuǎn)寫、AI高清降噪和智能編輯等方面的優(yōu)勢,SR101是訊飛*500元級錄音筆,相比同價(jià)位產(chǎn)品也有著硬件優(yōu)勢和軟件功能上的突破。
訊飛還面向商務(wù)人士的溝通和記錄需求,推出*立體聲無線耳機(jī)(TWS)iFLYBUDS,擁有通話實(shí)時(shí)轉(zhuǎn)寫、智能撥號識別、通話譯文三大核心AI功能。
自2019年5月訊飛*帶屏錄音筆——訊飛智能錄音筆SR系列推出后,國內(nèi)錄音筆市場隨之掀起了以AI技術(shù)為依托的品類創(chuàng)新浪潮。
作為今年科大訊飛的首場線下新品發(fā)布會(huì),此次訊飛不僅補(bǔ)全了智能錄音筆SR系列從入門到旗艦、再到尊享版市場的拼圖,同時(shí)其*TWS耳機(jī)的發(fā)布,也意味著訊飛智能語音和轉(zhuǎn)寫技術(shù)業(yè)務(wù)邊界的突破。
“秉承著高效辦公、智慧生活的理念,訊飛消費(fèi)者業(yè)務(wù)已實(shí)現(xiàn)連續(xù)三年大于30%的增速,甚至今年逆勢增長,在618中獲得22項(xiàng)單品冠*。”科大訊飛聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁在現(xiàn)場談到。
在他看來,訊飛在AI轉(zhuǎn)寫賽道上,不僅希望能為文字工作者的記錄場景賦能,更希望成為每個(gè)人的知識管理工具。讓每一位用戶在忙碌之中,依然可以輕松地備忘信息、捕捉靈感、記錄觀點(diǎn)。“讓我們一同開啟高效記錄新時(shí)代!”胡郁信心滿滿地說到。
那么,這次訊飛將會(huì)給我們帶來它在智能轉(zhuǎn)寫賽道上的哪些技術(shù)和場景應(yīng)用創(chuàng)新?這些創(chuàng)新背后又展露了訊飛哪些行業(yè)創(chuàng)新的戰(zhàn)略和思考?來看現(xiàn)場發(fā)布干貨給我們的答案。
一、讓錄音筆長眼睛:首推離線轉(zhuǎn)寫與OCR識別功能
與上一代產(chǎn)品相比,訊飛SR901和SR702智能錄音筆的軟硬件性能在轉(zhuǎn)寫、降噪、智能編輯等方面都有了明顯升級,同時(shí)還新增了不少小而美的AI新功能,如OCR能力、圖片拍攝識別文字、拍攝視頻實(shí)現(xiàn)字幕等。
1、智能轉(zhuǎn)寫:支持無網(wǎng)轉(zhuǎn)寫及12種方言
轉(zhuǎn)寫功能的創(chuàng)新升級可謂是訊飛此次發(fā)布的重頭戲。
為了幫助用戶進(jìn)一步解決在無網(wǎng)絡(luò)環(huán)境下轉(zhuǎn)寫,以及隱私內(nèi)容轉(zhuǎn)寫的需求,SR901和SR702錄音筆升級了語音轉(zhuǎn)文字引擎,離線轉(zhuǎn)寫功能。讓用戶無需在4G/Wi-Fi網(wǎng)絡(luò)下就能實(shí)現(xiàn)語音實(shí)時(shí)轉(zhuǎn)寫并立即保存轉(zhuǎn)寫文字。
針對多語言、多語種的無縫切換識別和轉(zhuǎn)寫,訊飛推出新一代識別(轉(zhuǎn)寫)引擎——端到端新引擎,優(yōu)化迭代了端到端語音識別框架。除了純中文與純英文模式識別外,端到端新引擎還支持中英混合識別場景,以及普通話-部分方言識別。
三款錄音筆在方言和語種轉(zhuǎn)寫,以及專業(yè)領(lǐng)域轉(zhuǎn)寫方面也進(jìn)行了升級,支持粵語、河南話等12種方言轉(zhuǎn)寫;藏語、維吾爾語2種少數(shù)民族語言轉(zhuǎn)寫;中、英、日、韓等8種語言轉(zhuǎn)寫;財(cái)經(jīng)貿(mào)易、醫(yī)療、IT科技等7大專業(yè)領(lǐng)域的轉(zhuǎn)寫。
2、拾音降噪:遠(yuǎn)拾音15米,可實(shí)現(xiàn)超遠(yuǎn)距離錄音與轉(zhuǎn)寫
硬件方面,SR901采用2顆哈曼MEMS定向麥克風(fēng)+10顆全向麥克風(fēng),SR702采用2顆定向麥克風(fēng)和6顆矩陣麥克風(fēng),SR10采用1顆定向麥克風(fēng)+2顆矩陣麥克風(fēng),且支持AI拾音降噪。
據(jù)稱,訊飛錄音筆遠(yuǎn)拾音距離為15米,并且還能根據(jù)不同場景自動(dòng)匹配場景算法。同時(shí),它還采用非人聲過濾,能夠自動(dòng)跳過沒有人聲的冗余錄音,節(jié)約用戶整理錄音的時(shí)間。
實(shí)際上,訊飛錄音筆還采用了前端降噪技術(shù),基于自研神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)信號處理深度結(jié)合的降噪算法(SSA-IME),不僅能有效降低環(huán)境干擾噪聲,還可消除干擾說話人的聲音,從而大幅降低語音識別的處理難度。
據(jù)了解,該技術(shù)使訊飛錄音筆在無喇叭的情況下,3-10米遠(yuǎn)距離轉(zhuǎn)寫效果提升30%;有喇叭的情況下,超遠(yuǎn)距離(20-50m)演講場景轉(zhuǎn)寫效果為90%以上,這也體現(xiàn)了訊飛在遠(yuǎn)距離降噪轉(zhuǎn)寫技術(shù)上的先進(jìn)性。
3、智能編輯:上線多人會(huì)議說話人分離
針對多人交談會(huì)議場景,訊飛錄音筆上線了其與ASR聯(lián)合建模的說話人分離方案。
此外,三款訊飛錄音筆升級了6項(xiàng)智能編輯功能:
智能語義分段:根據(jù)語義上下文進(jìn)行分段,提升用戶針對轉(zhuǎn)寫文檔的瀏覽體驗(yàn);
自動(dòng)區(qū)分講話人:根據(jù)錄音及轉(zhuǎn)寫結(jié)果自動(dòng)區(qū)分標(biāo)注講話人,針對多人討論場景,用戶還可快速檢索目標(biāo)說話人數(shù)據(jù);
口語規(guī)整:可過濾語氣詞、重復(fù)詞、無意義詞,優(yōu)化轉(zhuǎn)寫內(nèi)容;
智能摘要:對錄音內(nèi)容進(jìn)行全面的語義理解與分析,自動(dòng)抽取關(guān)鍵信息,形成摘要結(jié)果;
個(gè)人詞庫:用戶可提前輸入專屬詞匯,實(shí)現(xiàn)轉(zhuǎn)寫時(shí)的智能編輯優(yōu)化;
文件分享:支持文件分享功能,用戶可自定義多種導(dǎo)出格式或模板,同時(shí)在文件編輯結(jié)束后,可選擇文件分享至郵件。
4、絕招:看圖識字,還能給視頻配字幕
除了聲音記錄和轉(zhuǎn)寫之外,訊飛在三款新錄音筆上也添加了圖像方面的創(chuàng)新應(yīng)用,如支持OCR文字識別、圖片拍攝識別文字、拍攝視頻實(shí)現(xiàn)字幕等。
硬件方面,訊飛智能錄音筆SR901為后置三攝,包括1300萬高像素主攝像頭、800萬像素120°超大廣角攝像頭、800萬像素長焦攝像頭;SR702為800萬像素?cái)?shù)字變焦后置單攝。
功能方面,SR901和SR702錄音筆能夠提取并實(shí)時(shí)記錄圖片上的文字內(nèi)容,還可錄制視頻,進(jìn)行實(shí)時(shí)收音。
有意思的是,訊飛錄音筆拍攝完成并導(dǎo)出視頻文件時(shí),支持自動(dòng)生成字幕和后期編輯字幕,為錄音筆增添了新的圖像/視頻交互體驗(yàn)。
二、解密:訊飛如何突破離線轉(zhuǎn)寫技術(shù)難點(diǎn)?
在這次訊飛智能錄音筆SR系列的小爆發(fā)背后,是其長達(dá)多年的技術(shù)積累和創(chuàng)新。
據(jù)智東西了解,此次發(fā)布中大的技術(shù)亮點(diǎn)在于離線轉(zhuǎn)寫功能。不過,由于離線轉(zhuǎn)寫對硬件和算法方面都有著較高的要求,因此實(shí)現(xiàn)這項(xiàng)技術(shù)并非易事。
硬件方面,離線轉(zhuǎn)寫與離線聽寫有著很大差異。
離線聽寫多以短語音為主,數(shù)據(jù)是偶爾性調(diào)用,對瞬間運(yùn)算能力有較大要求;離線轉(zhuǎn)寫多以長語音為主,數(shù)據(jù)調(diào)用一般持續(xù)1小時(shí)或數(shù)小時(shí)以上,對硬件的長時(shí)間算力、CPU功耗和散熱情況等要求更高。
軟件方面,離線轉(zhuǎn)寫需適配訊飛的離線轉(zhuǎn)寫算法,實(shí)現(xiàn)與云端相當(dāng)?shù)膶?shí)時(shí)性和準(zhǔn)確性。同時(shí),還要確保整機(jī)在長時(shí)間的轉(zhuǎn)寫過程中,溫度始終維持在合適范圍內(nèi),這也是離線轉(zhuǎn)寫算法的關(guān)鍵難點(diǎn)。
針對這些難點(diǎn),訊飛的轉(zhuǎn)寫技術(shù)主要從兩個(gè)方面進(jìn)行了優(yōu)化和創(chuàng)新。
一方面,訊飛錄音筆采用CPU主頻自適應(yīng)調(diào)整、線程數(shù)動(dòng)態(tài)調(diào)度等方式來緩解設(shè)備發(fā)熱情況,以確保設(shè)備處于離線轉(zhuǎn)寫運(yùn)行時(shí)工作頻率始終保持穩(wěn)定。這樣不僅能保障離線轉(zhuǎn)寫的實(shí)時(shí)性和準(zhǔn)確性,還能保證整機(jī)溫度的適宜。
另一方面,訊飛離線轉(zhuǎn)寫采用和在線轉(zhuǎn)寫幾乎相同的核心算法,針對錄音筆硬件的特性與指標(biāo)進(jìn)行裁剪與適配,包括模型蒸餾、定點(diǎn)化運(yùn)算、多幀并行等技術(shù),以實(shí)現(xiàn)流暢運(yùn)行的目的。
基于這些突破,訊飛離線轉(zhuǎn)寫功能在此次新推出的智能錄音筆上實(shí)現(xiàn)了*落地。據(jù)了解,與云端轉(zhuǎn)寫相比,訊飛錄音筆離線轉(zhuǎn)寫所損失的準(zhǔn)確率低于相對10%。
三、訊飛*TWS耳機(jī)iFLYBUDS的三大核心亮點(diǎn)
訊飛的創(chuàng)新發(fā)布不僅僅是智能錄音筆,還有智能TWS耳機(jī)iFLYBUDS。
作為訊飛的*智能TWS耳機(jī),iFLYBUDS在誕生之初就將目標(biāo)瞄準(zhǔn)了商務(wù)應(yīng)用市場,滿足商務(wù)人士在自駕、通勤和會(huì)議等多場景中,進(jìn)行高效記錄和溝通的需求。
具體來看,訊飛智能TWS耳機(jī)iFLYBUDS有三大核心優(yōu)勢,分別為通話實(shí)時(shí)轉(zhuǎn)寫、智能撥號識別、通話譯文。
iFLYBUDS通話轉(zhuǎn)文字的功能,均支持iPhone和安卓手機(jī),并不需要獲得手機(jī)的通話錄音權(quán)限,只需聲音通過耳機(jī)即可在App上實(shí)現(xiàn)通話語音的轉(zhuǎn)寫。
1、通話實(shí)時(shí)轉(zhuǎn)寫
iFLYBUDS支持常規(guī)電*和網(wǎng)*電*,包括微*語音、騰訊會(huì)議和釘釘語音等。在多人會(huì)議場景下,iFLYBUDS還支持自動(dòng)區(qū)分講話人,方便用戶快速查找通話內(nèi)容。
通話時(shí),用戶可隨時(shí)通過一鍵錄音功能,將通話過程轉(zhuǎn)文字,轉(zhuǎn)寫準(zhǔn)確率達(dá)98%;通話結(jié)束后,iFLYBUDS將形成智能摘要,自動(dòng)提煉通話重點(diǎn)內(nèi)容,并支持對通話內(nèi)容的多終端(手機(jī)端和電腦端)分享和編輯。
2、智能語音撥號
針對商務(wù)人士通訊錄中聯(lián)系人重名、同音等情況,iFLYBUDS支持用戶通過多種方式區(qū)分人名,以快速找到正確聯(lián)系人,提升撥號效率。
一方面,用戶可通過純語音交互,只說聯(lián)系人姓名即可撥號;另一方面,用戶還能通過詞語舉例、歸屬地名稱區(qū)分的方式讓耳機(jī)快速撥號,如“章子怡的章、立早章”、“北京的章總”。
3、通話譯文對照
在外貿(mào)商務(wù)交流場景中,用戶時(shí)常會(huì)遇到專業(yè)詞生僻等語言溝通障礙。
為了解決這一用戶需求,iFLYBUDS在用戶進(jìn)行英語通話時(shí),能變身“翻譯官”,幫助用戶將通話內(nèi)容實(shí)時(shí)轉(zhuǎn)譯為漢字,輔助用戶英語溝通。
除了三大核心功能外,iFLYBUDS在音質(zhì)、連接、延遲、續(xù)航和降噪方面也有著自己的特色。
其中在續(xù)航方面,iFLYBUDS支持2.5小時(shí)通話時(shí)長,4小時(shí)聽歌時(shí)長,若搭配充電盒使用,可實(shí)現(xiàn)長通話10小時(shí),長聽歌20小時(shí)。
在極限使用場景下,iFLYBUDS同時(shí)進(jìn)行通話+錄音+轉(zhuǎn)寫的續(xù)航為2小時(shí),搭配充電盒的長使用時(shí)長為6小時(shí)。
降噪方面,iFLYBUDS的智能降噪功能采用雙麥克風(fēng)拾音,CVC降噪算法,保證用戶在機(jī)場、健身房等嘈雜環(huán)境中的清晰流暢通話體驗(yàn)。
此外,iFLYBUDS還支持智能語音助手、自定義輕擊耳機(jī)交互和佩戴檢測等功能。
結(jié)語:訊飛消費(fèi)者業(yè)務(wù)擴(kuò)軍智能錄音筆,新玩法押注TWS賽道
回顧過去幾年錄音筆行業(yè)的發(fā)展,一面是傳統(tǒng)錄音筆市場的破局,一面是AI技術(shù)的迅速發(fā)展與落地。
科大訊飛作為一家國內(nèi)老牌智能語音企業(yè),緊緊地抓住了傳統(tǒng)行業(yè)變革與新技術(shù)迸發(fā)的發(fā)展機(jī)遇,與過去自身長達(dá)20余年的語音技術(shù)基因相碰撞,從而催生出AI錄音筆的新品類市場。
這既是訊飛的優(yōu)勢,也是它的挑戰(zhàn)。從初簡簡單單的錄音筆到一塊帶屏智能錄音筆,再到如今訊飛智能錄音筆SR系列的補(bǔ)全,訊飛圍繞語音技術(shù)的AI布局始終具有創(chuàng)新性和挑戰(zhàn)性。
尤其是訊飛*智能TWS耳機(jī)的誕生,不僅實(shí)現(xiàn)了AI轉(zhuǎn)寫等技術(shù)在多個(gè)設(shè)備的落地和創(chuàng)新應(yīng)用,還進(jìn)一步擴(kuò)張了自身AI戰(zhàn)略版圖,將智能語音和轉(zhuǎn)寫賽道的邊界拓寬到錄音筆行業(yè)之外。
至此,訊飛以智能語音為基礎(chǔ)的產(chǎn)品品類在AI轉(zhuǎn)寫賽道的布局,已愈發(fā)地多元化。同時(shí),訊飛基于這些技術(shù)所帶來的跨邊界融合,也給整個(gè)錄音筆和可穿戴設(shè)備行業(yè)的創(chuàng)新應(yīng)用與發(fā)展,提供了一個(gè)新的思考路徑和解決方向。
未來,訊飛消費(fèi)者業(yè)務(wù)或?qū)⒗^續(xù)打破不同模態(tài)技術(shù)之間的應(yīng)用與融合,將自身業(yè)務(wù)的邊界拓寬到更遠(yuǎn)的領(lǐng)域。