4月底“云知聲”的語(yǔ)音識(shí)別引擎進(jìn)行了一次升級(jí),這是繼今年一月份使用深度神經(jīng)網(wǎng)絡(luò)(DNN)技術(shù)以來(lái),云知聲語(yǔ)音的第二次重大升級(jí)。在這次升級(jí)中,識(shí)別引擎的識(shí)別率和響應(yīng)速度均提升了30%之多。熟悉模式識(shí)別的人都清楚,如果能夠通過(guò)某種方法將識(shí)別性能一次性提升10%以上,即便識(shí)別速度比原來(lái)還低,其成就也足夠在國(guó)際知名期刊上發(fā)一篇高質(zhì)量的論文了。云知聲此次能夠?qū)⒆R(shí)別率和速度同時(shí)提升30%,絕對(duì)令人咋舌。從目前的識(shí)別表現(xiàn)上來(lái)看,云知聲的語(yǔ)音識(shí)別準(zhǔn)確率已經(jīng)完全不亞于業(yè)內(nèi)大佬科大訊飛,而引擎的處理速度則超越所有競(jìng)爭(zhēng)對(duì)手,是其他人的3到4倍。
在語(yǔ)音領(lǐng)域內(nèi),提升語(yǔ)音識(shí)別準(zhǔn)確率的法寶大致有兩個(gè):一個(gè)是算法,即所謂“技術(shù)創(chuàng)新”;另一個(gè)則是數(shù)據(jù),即“數(shù)據(jù)驅(qū)動(dòng)”。打個(gè)不太準(zhǔn)確的比方,如果說(shuō)先進(jìn)的算法猶如一輛法拉利跑車,則海量的數(shù)據(jù)就是能令發(fā)動(dòng)機(jī)發(fā)出震撼轟鳴的高性能汽油。讓一輛賽車高速前進(jìn),這二者缺一不可。但從某種程度上來(lái)說(shuō),先進(jìn)的算法可以在一定程度上彌補(bǔ)數(shù)據(jù)不足的缺陷;而海量的數(shù)據(jù)也可以從一定程度上提升算法的外在表現(xiàn)。云知聲的升級(jí),靠的是是什么呢?
眾所周知,海量線上數(shù)據(jù)的積累相當(dāng)不易,對(duì)于語(yǔ)音數(shù)據(jù)而言則更甚。語(yǔ)音的積累面臨著采集和標(biāo)注兩大難題,相當(dāng)費(fèi)時(shí)費(fèi)力。在語(yǔ)音引擎上線前的“種子期”,開(kāi)發(fā)者一般會(huì)通過(guò)向相關(guān)機(jī)構(gòu)購(gòu)買或者是請(qǐng)人錄音的方式來(lái)獲取標(biāo)注過(guò)的原始語(yǔ)音。但這種方式不太可能獲取“足夠”的語(yǔ)音,并且這類語(yǔ)音一般會(huì)跟線上的實(shí)際情況有較大差別(例如說(shuō)話方式、用戶口音、設(shè)備質(zhì)量、環(huán)境噪音等等)。除非有極為先進(jìn)的算法,想基于這種數(shù)據(jù)來(lái)提供優(yōu)異的線上表現(xiàn)是相當(dāng)困難的。獲取數(shù)據(jù)的另一種方式就是通過(guò)滾動(dòng),即通過(guò)“服務(wù)上線->積累用戶->用戶提供語(yǔ)音->語(yǔ)音標(biāo)注->更新語(yǔ)音識(shí)別服務(wù)”的步驟來(lái)積累語(yǔ)音。這種語(yǔ)音積累方式由于數(shù)據(jù)精準(zhǔn)而且成本較低,因而是最為有效的。但這種方式需要以一定的用戶量為基礎(chǔ),如果初始的語(yǔ)音識(shí)別服務(wù)不夠好,吸引不來(lái)大量用戶貢獻(xiàn)語(yǔ)音,那么這種滾動(dòng)方式純屬空談。這種模式對(duì)于比較成熟的語(yǔ)音識(shí)別服務(wù)商而言是必經(jīng)之路。拿科大訊飛來(lái)說(shuō),其通過(guò)公有云、訊飛口迅、訊飛語(yǔ)音輸入法以及訊飛語(yǔ)點(diǎn),在一家獨(dú)舞的情況下,經(jīng)過(guò)近3年的積累,其用戶語(yǔ)音庫(kù)用“海量”來(lái)形容毫不為過(guò)。而云知聲則是在2012年6月剛剛成立的小公司,雖然在與搜狗合作之后小有名氣,但無(wú)論在時(shí)間還是產(chǎn)品上,都不可與科大訊飛同日而語(yǔ),因此云知聲想靠單一產(chǎn)品短期內(nèi)積累大量語(yǔ)音數(shù)據(jù)還是相當(dāng)困難的。
云知聲的高識(shí)別率勝在其更新速度驚人。2013年的1月初,云知聲剛剛宣布了其語(yǔ)音識(shí)別服務(wù)性能的第一次大跨步改進(jìn),使用基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音模型替代了原有的基于高斯混合(GMM)的語(yǔ)音模型。如今時(shí)隔3個(gè)月,云知聲又進(jìn)行了第二次更新,不得不說(shuō),這在語(yǔ)音識(shí)別領(lǐng)域內(nèi)絕屬一個(gè)異類。
語(yǔ)音作為人們獲取和溝通信息最方便、最有效的手段,智能語(yǔ)音交互技術(shù)對(duì)于各種移動(dòng)互聯(lián)網(wǎng)終端改善用戶體驗(yàn)具有不可替代的作用,語(yǔ)音識(shí)別技術(shù)的升級(jí)將帶來(lái)更高的識(shí)別性能和更好的用戶體驗(yàn)。
云知聲CEO梁家恩表示,“目前云知聲還有多項(xiàng)關(guān)鍵技術(shù)儲(chǔ)備,深度神經(jīng)網(wǎng)絡(luò)DNN技術(shù)只是其中之一。DNN主要是提高發(fā)音模型的匹配性能,今后,云知聲還會(huì)在抗噪音、方言覆蓋以及語(yǔ)言領(lǐng)域支持等方面持續(xù)投入。”