近日,騰訊云語音識別(Automatic Speech Recognition,ASR)方案基于大模型能力全新升級,依托業(yè)界領(lǐng)先的自研語音識別技術(shù)和海量的語音行業(yè)大數(shù)據(jù)優(yōu)勢,可為不同行業(yè)、不同需求的客戶提供高質(zhì)量的語音識別服務(wù),精準(zhǔn)、高效助力千行百業(yè)持續(xù)創(chuàng)造應(yīng)用價值、繁榮產(chǎn)業(yè)生態(tài)。
騰訊云ASR是將語音轉(zhuǎn)化成文字的PaaS產(chǎn)品,依托微信智聆實驗室自研技術(shù),有效提高復(fù)雜場景的識別準(zhǔn)確性,極大地改善復(fù)雜音頻和低信噪比音頻識別的效果。通過業(yè)界首創(chuàng)的高性能引擎,能夠?qū)崿F(xiàn)23種方言的語音識別,讓用戶無需事先定義方言,即可讓模型進(jìn)行自動化適應(yīng)。另外,突破現(xiàn)有ASR引擎的場景局限,騰訊云ASR在線下銷售、下沉市場等不同場景都能夠靈活、廣泛地進(jìn)行使用。
目前,騰訊云ASR已經(jīng)在微信、王者榮耀等騰訊內(nèi)部產(chǎn)品以及外部不同行業(yè)持續(xù)落地,覆蓋錄音質(zhì)檢、會議實時轉(zhuǎn)寫、語音輸入法等多個場景,產(chǎn)品單日調(diào)用量達(dá)到百億次,單月服務(wù)的內(nèi)外部企業(yè)客戶數(shù)達(dá)到數(shù)千個。
自研多模態(tài)融合、蒸餾算法,帶來更準(zhǔn)確的語音識別性能
語音識別(ASR)是AI最早的應(yīng)用場景之一,業(yè)界不少方案目前僅能針對簡單場景進(jìn)行精準(zhǔn)識別,一旦音頻環(huán)境復(fù)雜,或者多人交錯說話、聲音重疊,識別準(zhǔn)確率就會大打折扣。為了助力解決上述語音識別應(yīng)用難題,騰訊云ASR自研多模態(tài)融合算法、蒸餾和半監(jiān)督算法等,強(qiáng)化上下文理解能力,大幅減少語音數(shù)據(jù)的標(biāo)記工作,更好地提升復(fù)雜識別環(huán)境的準(zhǔn)確率。
通過自研多模態(tài)融合算法,騰訊云在模型預(yù)訓(xùn)練階段加入文本大語言模型(LLM),增加上下文預(yù)測的準(zhǔn)確率,對部分通過純音頻識別無法正確識別的場景有了更好的提升作用,在各行業(yè)數(shù)據(jù)集中(尤其是低信噪比數(shù)據(jù)集)取得更佳效果。同時采用無監(jiān)督學(xué)習(xí),使得模型中加入大量未經(jīng)標(biāo)注的低資源數(shù)據(jù),在垂類行業(yè)音頻和方言音頻上取得了重大突破。
同時,騰訊云還自研蒸餾和半監(jiān)督算法,利用有監(jiān)督數(shù)據(jù),可以讓ASR的小參數(shù)模型同時學(xué)習(xí)真值數(shù)據(jù)和知識蒸餾的數(shù)據(jù),利用蒸餾算法,讓小模型學(xué)習(xí)更多數(shù)據(jù)的相似性,從而提升各自的性能水平。
業(yè)界首創(chuàng)高性能引擎,支持多語言和多方言的混合識別
隨著智能汽車普及、短視頻配音、企業(yè)出海等趨勢的興起,多語種、多方言的語音識別需求逐漸加大。如何應(yīng)對不同口音、語言的準(zhǔn)確識別,也成為騰訊云發(fā)力ASR大模型創(chuàng)新的焦點。
騰訊云通過采用自研的高新技術(shù),打造多項業(yè)界首創(chuàng)的高性能引擎,進(jìn)一步增強(qiáng)ASR混合識別能力。依托業(yè)界首創(chuàng)的支持多種語言和多方言的混合識別引擎,騰訊云成功構(gòu)建了中文方言大模型能力。提升23個方言語種的平均識別準(zhǔn)確率(平均提升指標(biāo)在7%以上),識別過程無需事先定義方言種類,實現(xiàn)對“普通話+方言”識別場景的自動化適應(yīng),為不同語種用戶提供更全面的服務(wù),有效滿足了跨省市的語音識別需求。
混合識別引擎之外,騰訊云ASR還支持熱詞增強(qiáng)版、ASR情緒識別等多項業(yè)界首創(chuàng)功能,極大地改善復(fù)雜音頻和低信噪比音頻識別的效果,提升高達(dá)20%。通過高準(zhǔn)確率、業(yè)界首創(chuàng)的語音識別功能創(chuàng)新,騰訊云ASR解決市場上ASR引擎需求問題的同時,成功構(gòu)建適配多個領(lǐng)域的語音識別大模型,進(jìn)一步擴(kuò)展了其在不同場景的應(yīng)用范圍。
靈活、廣泛適配多種應(yīng)用場景,成本可控、性價比更高
將智能客服通話錄音轉(zhuǎn)化成文本,可能出現(xiàn)違規(guī)用語、危險用語;多數(shù)廠商需要依賴有監(jiān)督數(shù)據(jù)進(jìn)行模型的優(yōu)化,因此在部分對識別要求較高的場景上,客戶無法尋求到更合適的解決方案。面對語音識別要求越來越高的現(xiàn)狀,如何讓客戶獲取到識別率更好、覆蓋面更廣、性價比更高的語音識別服務(wù),成為騰訊云ASR努力的目標(biāo)。
騰訊云語音識別方案不僅能夠更好地解決現(xiàn)有ASR引擎在高并發(fā)、高可用性方面的局限,在智能客服、語音輸入法、下沉市場等多種應(yīng)用場景,展現(xiàn)出了強(qiáng)大的靈活性和廣泛性,使得各行業(yè)、各種特征迥異的音頻都能獲得相對高性能和更準(zhǔn)確地轉(zhuǎn)寫服務(wù)。
例如在智能客服場景,百應(yīng)科技通過騰訊云ASR強(qiáng)化電話外呼、智能外呼場景的錄音文件識別、實時語音識別,大幅提升呼叫中心工作質(zhì)量管控能力,完成人力難以完成的超大規(guī)模呼叫中心的電話錄音質(zhì)檢問題;在語音輸入法場景,KK鍵盤依托騰訊云ASR進(jìn)一步提升產(chǎn)品的趣味性,滿足了客戶語彈聊天、游戲鍵盤、趣聊等核心功能的設(shè)計,有效提升了產(chǎn)品的留存和轉(zhuǎn)化,以及品牌商業(yè)價值。
當(dāng)前,騰訊云ASR已經(jīng)落地在客服質(zhì)檢、外呼中心、智能家居、游戲直播、會議轉(zhuǎn)寫、語音輸入法、法庭、房地產(chǎn)、教育等多個行業(yè),積累了豐富的行業(yè)詞庫和標(biāo)桿案例。未來,騰訊云將繼續(xù)推動語音識別能力創(chuàng)新升級,幫助更多應(yīng)用場景將大模型的技術(shù)力價值轉(zhuǎn)化生產(chǎn)力價值,助力產(chǎn)業(yè)發(fā)展。