近日,騰訊云語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)方案基于大模型能力全新升級(jí),依托業(yè)界領(lǐng)先的自研語(yǔ)音識(shí)別技術(shù)和海量的語(yǔ)音行業(yè)大數(shù)據(jù)優(yōu)勢(shì),可為不同行業(yè)、不同需求的客戶提供高質(zhì)量的語(yǔ)音識(shí)別服務(wù),精準(zhǔn)、高效助力千行百業(yè)持續(xù)創(chuàng)造應(yīng)用價(jià)值、繁榮產(chǎn)業(yè)生態(tài)。
騰訊云ASR是將語(yǔ)音轉(zhuǎn)化成文字的PaaS產(chǎn)品,依托微信智聆實(shí)驗(yàn)室自研技術(shù),有效提高復(fù)雜場(chǎng)景的識(shí)別準(zhǔn)確性,極大地改善復(fù)雜音頻和低信噪比音頻識(shí)別的效果。通過(guò)業(yè)界首創(chuàng)的高性能引擎,能夠?qū)崿F(xiàn)23種方言的語(yǔ)音識(shí)別,讓用戶無(wú)需事先定義方言,即可讓模型進(jìn)行自動(dòng)化適應(yīng)。另外,突破現(xiàn)有ASR引擎的場(chǎng)景局限,騰訊云ASR在線下銷售、下沉市場(chǎng)等不同場(chǎng)景都能夠靈活、廣泛地進(jìn)行使用。
目前,騰訊云ASR已經(jīng)在微信、王者榮耀等騰訊內(nèi)部產(chǎn)品以及外部不同行業(yè)持續(xù)落地,覆蓋錄音質(zhì)檢、會(huì)議實(shí)時(shí)轉(zhuǎn)寫、語(yǔ)音輸入法等多個(gè)場(chǎng)景,產(chǎn)品單日調(diào)用量達(dá)到百億次,單月服務(wù)的內(nèi)外部企業(yè)客戶數(shù)達(dá)到數(shù)千個(gè)。
自研多模態(tài)融合、蒸餾算法,帶來(lái)更準(zhǔn)確的語(yǔ)音識(shí)別性能
語(yǔ)音識(shí)別(ASR)是AI最早的應(yīng)用場(chǎng)景之一,業(yè)界不少方案目前僅能針對(duì)簡(jiǎn)單場(chǎng)景進(jìn)行精準(zhǔn)識(shí)別,一旦音頻環(huán)境復(fù)雜,或者多人交錯(cuò)說(shuō)話、聲音重疊,識(shí)別準(zhǔn)確率就會(huì)大打折扣。為了助力解決上述語(yǔ)音識(shí)別應(yīng)用難題,騰訊云ASR自研多模態(tài)融合算法、蒸餾和半監(jiān)督算法等,強(qiáng)化上下文理解能力,大幅減少語(yǔ)音數(shù)據(jù)的標(biāo)記工作,更好地提升復(fù)雜識(shí)別環(huán)境的準(zhǔn)確率。
通過(guò)自研多模態(tài)融合算法,騰訊云在模型預(yù)訓(xùn)練階段加入文本大語(yǔ)言模型(LLM),增加上下文預(yù)測(cè)的準(zhǔn)確率,對(duì)部分通過(guò)純音頻識(shí)別無(wú)法正確識(shí)別的場(chǎng)景有了更好的提升作用,在各行業(yè)數(shù)據(jù)集中(尤其是低信噪比數(shù)據(jù)集)取得更佳效果。同時(shí)采用無(wú)監(jiān)督學(xué)習(xí),使得模型中加入大量未經(jīng)標(biāo)注的低資源數(shù)據(jù),在垂類行業(yè)音頻和方言音頻上取得了重大突破。
同時(shí),騰訊云還自研蒸餾和半監(jiān)督算法,利用有監(jiān)督數(shù)據(jù),可以讓ASR的小參數(shù)模型同時(shí)學(xué)習(xí)真值數(shù)據(jù)和知識(shí)蒸餾的數(shù)據(jù),利用蒸餾算法,讓小模型學(xué)習(xí)更多數(shù)據(jù)的相似性,從而提升各自的性能水平。
業(yè)界首創(chuàng)高性能引擎,支持多語(yǔ)言和多方言的混合識(shí)別
隨著智能汽車普及、短視頻配音、企業(yè)出海等趨勢(shì)的興起,多語(yǔ)種、多方言的語(yǔ)音識(shí)別需求逐漸加大。如何應(yīng)對(duì)不同口音、語(yǔ)言的準(zhǔn)確識(shí)別,也成為騰訊云發(fā)力ASR大模型創(chuàng)新的焦點(diǎn)。
騰訊云通過(guò)采用自研的高新技術(shù),打造多項(xiàng)業(yè)界首創(chuàng)的高性能引擎,進(jìn)一步增強(qiáng)ASR混合識(shí)別能力。依托業(yè)界首創(chuàng)的支持多種語(yǔ)言和多方言的混合識(shí)別引擎,騰訊云成功構(gòu)建了中文方言大模型能力。提升23個(gè)方言語(yǔ)種的平均識(shí)別準(zhǔn)確率(平均提升指標(biāo)在7%以上),識(shí)別過(guò)程無(wú)需事先定義方言種類,實(shí)現(xiàn)對(duì)“普通話+方言”識(shí)別場(chǎng)景的自動(dòng)化適應(yīng),為不同語(yǔ)種用戶提供更全面的服務(wù),有效滿足了跨省市的語(yǔ)音識(shí)別需求。
混合識(shí)別引擎之外,騰訊云ASR還支持熱詞增強(qiáng)版、ASR情緒識(shí)別等多項(xiàng)業(yè)界首創(chuàng)功能,極大地改善復(fù)雜音頻和低信噪比音頻識(shí)別的效果,提升高達(dá)20%。通過(guò)高準(zhǔn)確率、業(yè)界首創(chuàng)的語(yǔ)音識(shí)別功能創(chuàng)新,騰訊云ASR解決市場(chǎng)上ASR引擎需求問(wèn)題的同時(shí),成功構(gòu)建適配多個(gè)領(lǐng)域的語(yǔ)音識(shí)別大模型,進(jìn)一步擴(kuò)展了其在不同場(chǎng)景的應(yīng)用范圍。
靈活、廣泛適配多種應(yīng)用場(chǎng)景,成本可控、性價(jià)比更高
將智能客服通話錄音轉(zhuǎn)化成文本,可能出現(xiàn)違規(guī)用語(yǔ)、危險(xiǎn)用語(yǔ);多數(shù)廠商需要依賴有監(jiān)督數(shù)據(jù)進(jìn)行模型的優(yōu)化,因此在部分對(duì)識(shí)別要求較高的場(chǎng)景上,客戶無(wú)法尋求到更合適的解決方案。面對(duì)語(yǔ)音識(shí)別要求越來(lái)越高的現(xiàn)狀,如何讓客戶獲取到識(shí)別率更好、覆蓋面更廣、性價(jià)比更高的語(yǔ)音識(shí)別服務(wù),成為騰訊云ASR努力的目標(biāo)。
騰訊云語(yǔ)音識(shí)別方案不僅能夠更好地解決現(xiàn)有ASR引擎在高并發(fā)、高可用性方面的局限,在智能客服、語(yǔ)音輸入法、下沉市場(chǎng)等多種應(yīng)用場(chǎng)景,展現(xiàn)出了強(qiáng)大的靈活性和廣泛性,使得各行業(yè)、各種特征迥異的音頻都能獲得相對(duì)高性能和更準(zhǔn)確地轉(zhuǎn)寫服務(wù)。
例如在智能客服場(chǎng)景,百應(yīng)科技通過(guò)騰訊云ASR強(qiáng)化電話外呼、智能外呼場(chǎng)景的錄音文件識(shí)別、實(shí)時(shí)語(yǔ)音識(shí)別,大幅提升呼叫中心工作質(zhì)量管控能力,完成人力難以完成的超大規(guī)模呼叫中心的電話錄音質(zhì)檢問(wèn)題;在語(yǔ)音輸入法場(chǎng)景,KK鍵盤依托騰訊云ASR進(jìn)一步提升產(chǎn)品的趣味性,滿足了客戶語(yǔ)彈聊天、游戲鍵盤、趣聊等核心功能的設(shè)計(jì),有效提升了產(chǎn)品的留存和轉(zhuǎn)化,以及品牌商業(yè)價(jià)值。
當(dāng)前,騰訊云ASR已經(jīng)落地在客服質(zhì)檢、外呼中心、智能家居、游戲直播、會(huì)議轉(zhuǎn)寫、語(yǔ)音輸入法、法庭、房地產(chǎn)、教育等多個(gè)行業(yè),積累了豐富的行業(yè)詞庫(kù)和標(biāo)桿案例。未來(lái),騰訊云將繼續(xù)推動(dòng)語(yǔ)音識(shí)別能力創(chuàng)新升級(jí),幫助更多應(yīng)用場(chǎng)景將大模型的技術(shù)力價(jià)值轉(zhuǎn)化生產(chǎn)力價(jià)值,助力產(chǎn)業(yè)發(fā)展。