婷婷激情丁香六月开心五月,最新欧美精品一区二区三区,最新国产精品精品视频 视频,亚洲国产成人爱av网站,中文字幕av无码一区二区三区电影

首頁>> 企業(yè)>>新聞詳情

順豐科技深耕智能語音語言技術(shù),深度賦能行業(yè)及全場(chǎng)景

2024-01-04 17:47  《4PS呼叫中心國際標(biāo)準(zhǔn)研究中心》  咨詢電話:17317241681(微信同號(hào))  


智能語音技術(shù)快速發(fā)展,應(yīng)用領(lǐng)域日益廣泛

智能語音語言技術(shù),是人工智能領(lǐng)域應(yīng)用的一個(gè)分支,當(dāng)前已經(jīng)廣泛應(yīng)用于各行各業(yè)。核心技術(shù)包括智能語音識(shí)別,智能語音合成,自然語言處理等,隨著新方案的迭代和涌現(xiàn),在近年來發(fā)展趨勢(shì)迅猛。全流程的應(yīng)用場(chǎng)景,典型的有智能客服機(jī)器人,除此之外,在傳媒制作、智能家居、辦公協(xié)同、車載等場(chǎng)景都有深度的應(yīng)用。而順豐呼叫中心,也應(yīng)用了這項(xiàng)技術(shù),以便更好地服務(wù)客戶。


主動(dòng)觸達(dá)客戶,順豐呼叫中心智能語音技術(shù)的深度應(yīng)用

順豐呼叫中心幾個(gè)關(guān)健系統(tǒng),有智能外呼系統(tǒng)、智能應(yīng)用系統(tǒng)及人工客服系統(tǒng)。外呼是呼叫客戶,主要是一些通知觸達(dá)場(chǎng)景,比如派件前先跟用戶預(yù)約某時(shí)間是否可上門等。智能應(yīng)答系統(tǒng),是處理用戶主動(dòng)呼入的情況,場(chǎng)景更為復(fù)雜,包括下單、消單、咨詢等場(chǎng)景。在智能系統(tǒng)解決不了用戶需求的時(shí)候,會(huì)有打斷邏輯轉(zhuǎn)到人工服系統(tǒng)。

三個(gè)系統(tǒng)都用到了智能語音語言技術(shù),其中智能系統(tǒng)全流程用到了識(shí)別、合成及意圖理解與對(duì)話生成。人工客服系統(tǒng)產(chǎn)生的大量錄音數(shù)據(jù)則由質(zhì)檢系統(tǒng)將音頻轉(zhuǎn)成文本并檢查客服的通話話術(shù)。

語音合成的應(yīng)用

語音合成,也叫TTS(text to speech),根據(jù)輸入的文本,輸出自然的語音。語音合成引擎一般分為前端語言學(xué)模型與后端的聲學(xué)模型,語言學(xué)系統(tǒng)負(fù)責(zé)語言解析處理,一般功能有語種分析,分詞,多音字處理,韻律預(yù)測(cè)等,而后端聲學(xué)系統(tǒng)則根據(jù)前面的這些信息,合成語音。目前后端系統(tǒng)從最開始的簡單拼接方式,到基于深度學(xué)習(xí)的參數(shù)合成,發(fā)展到現(xiàn)在比較流行的端到端方案,合成效果越來越好。

當(dāng)前線上正在運(yùn)行的方案是基于參數(shù)合成的方案,相比于拼接方案,其合的語音連接平穩(wěn),質(zhì)量高,但對(duì)聲碼器有一定的依賴。前端從文本中提取發(fā)音和韻律信息,而后端則將前端輸出轉(zhuǎn)成語音特征和語音數(shù)據(jù)流。

TTS的合成效果測(cè)評(píng)一般有兩種,第一種是采用Mos測(cè)評(píng),這種方法主要關(guān)注于語音本身的質(zhì)量,會(huì)對(duì)音質(zhì),流暢度,正確性,自然度,分詞,停頓,音色等,進(jìn)行主觀打分評(píng)價(jià),再根據(jù)平均值得到TTS系統(tǒng)的最終評(píng)分。而第二種是ABX測(cè)評(píng),通過相同文本的輸出對(duì)比不出的TTS系統(tǒng)合成效果。當(dāng)前線上版本使用ABX測(cè)試,超出原有供應(yīng)商5%以上,符合平替要求。

除了合成的效果,還有一個(gè)系統(tǒng)性能的維度用來評(píng)價(jià)合成,這里主要有實(shí)時(shí)率指標(biāo)(RTF),首幀響應(yīng)時(shí)間(RT),及系統(tǒng)并發(fā)三個(gè)關(guān)健指標(biāo)?;诖?,引擎的實(shí)現(xiàn)過程中調(diào)研實(shí)測(cè)了多種聲學(xué)模型與聲碼器。

最終,結(jié)合實(shí)際語音合成效果,第一版本生產(chǎn)實(shí)測(cè)RTF<0.02,RT<200ms。

結(jié)合系統(tǒng)應(yīng)用場(chǎng)景,及引擎的性能,當(dāng)前版本TTS未實(shí)現(xiàn)流式合成,并且采用Http接口封裝對(duì)呼叫系統(tǒng)提供原子能力。

以上是基于參數(shù)的合成,已在生產(chǎn)大規(guī)模應(yīng)用。而基于端到端bert_vits模型的第二大版本引擎,目前還在測(cè)試階段,根據(jù)目前的測(cè)試效果,中文句子停頓自然,比原方案稍好,而中文加英文字母停頓有時(shí)候不自然;另外在地址播報(bào)上也更自然,接近真人停頓習(xí)慣。


語音識(shí)別的主要應(yīng)用場(chǎng)景和方案

語音識(shí)別,也叫語音轉(zhuǎn)寫,目的是將音頻流轉(zhuǎn)成文字。其引擎方案一般由特征提取、聲學(xué)模型(AM),語言模型(LM),和解碼搜索四部分構(gòu)成。整個(gè)識(shí)別過程先對(duì)音頻流進(jìn)行處理,消除噪聲和信道失真,并對(duì)對(duì)語音進(jìn)行增強(qiáng),然后分割聲音片段并轉(zhuǎn)換成一系列數(shù)值,再通過聲學(xué)模型識(shí)別數(shù)值,最終利用語言模型解碼搜索匹配得到最優(yōu)的詞序列作為識(shí)別結(jié)果輸出。

特征提?。?/span>音頻模擬信號(hào)輸入,將其轉(zhuǎn)為數(shù)字信號(hào),提取聲音特征,供聲學(xué)模型提取合適有代表性的特征向量

聲學(xué)模型:將聲學(xué)和發(fā)音學(xué)的知識(shí)進(jìn)行整合,以特征提取部分生成的特征為輸入,并為可變長特征序列生成聲學(xué)模型分?jǐn)?shù)

語言模型:通過訓(xùn)練語料/數(shù)據(jù)(通常是文本形式)學(xué)習(xí)詞之間的相互關(guān)系,來估計(jì)假設(shè)詞序列的可能性,找出該聲音特征最有可能對(duì)應(yīng)的文字序列

解碼搜索:對(duì)給定的特征向量序列和若干假設(shè)詞序列計(jì)算聲學(xué)模型分?jǐn)?shù)和語言模型分?jǐn)?shù),將總體輸出分?jǐn)?shù)最高的詞序列作為識(shí)別結(jié)果。

在實(shí)際的場(chǎng)景中,語音識(shí)別主要分為非流式識(shí)別和流式識(shí)別。非流式識(shí)別將長音頻數(shù)據(jù)轉(zhuǎn)文本,常應(yīng)用在離線場(chǎng)景如影視字幕制作、客服錄音質(zhì)檢等,順豐內(nèi)部即主要應(yīng)用于小哥和客服錄音的質(zhì)檢。流式識(shí)別,輸入語音流,實(shí)時(shí)輸出帶有時(shí)間戳的文字流,常應(yīng)用于直播字幕、實(shí)時(shí)會(huì)議記錄、翻譯同傳等場(chǎng)景,順豐主要應(yīng)用在智能呼叫系統(tǒng)上。

流式識(shí)別與非流式識(shí)別在可用數(shù)據(jù)、模型精度和系統(tǒng)評(píng)價(jià)指標(biāo)上都有一些區(qū)別,如下表:

 

流式語音識(shí)別

非流式語音識(shí)別

可用數(shù)據(jù)

history數(shù)據(jù)+少量future數(shù)據(jù)

全部history + future數(shù)據(jù)

模型精度

數(shù)據(jù)輸入

N秒/次,如N=0.5

一次性輸入完整數(shù)據(jù)

結(jié)果獲取

實(shí)時(shí)輸出

解碼完成一次性輸出

運(yùn)行效率指標(biāo)

最后一次送入數(shù)據(jù)到獲得最終結(jié)果的時(shí)延

RTF (受時(shí)長影響波動(dòng))


1、非流式語音識(shí)別在質(zhì)檢系統(tǒng)的應(yīng)用

ASR應(yīng)用在質(zhì)檢系統(tǒng)上,多出了一些額外的功能,如話者分離,用于分開坐席與客戶音頻,以便可以只針對(duì)坐席做質(zhì)檢。另外還有后處理中的文本角色識(shí)別、規(guī)則質(zhì)檢等,也是流式處理中所沒有的。

質(zhì)檢系統(tǒng)整體方案如下,數(shù)據(jù)主流程和其中的ASR轉(zhuǎn)寫、規(guī)則質(zhì)檢是最核心的一部分。上游話單數(shù)據(jù)通過kafka和接口的方式接入。主流程接入數(shù)據(jù)后進(jìn)行了初步的過濾和轉(zhuǎn)存,生成話單和質(zhì)檢任務(wù)。ASR引擎是無狀態(tài)分布式架構(gòu),平臺(tái)提供冪等接口供引擎服務(wù)查詢未處理任務(wù),每個(gè)ASR服務(wù)啟動(dòng)之后,通過接口獲取任務(wù)進(jìn)行質(zhì)檢,完成或中間失敗則通過平臺(tái)的回調(diào)接口返回狀態(tài),通過kafka返回?cái)?shù)據(jù)。平臺(tái)實(shí)現(xiàn)了一套規(guī)則引擎,質(zhì)檢使用業(yè)務(wù)人員配置規(guī)則進(jìn)行。


2、流式語音識(shí)別在呼入呼出中的應(yīng)用

2.1、引擎

ASR的流式版本,在順豐場(chǎng)景中主要應(yīng)用在智能外呼系統(tǒng)和智能應(yīng)答系統(tǒng)。引擎使用支持流式處理的端點(diǎn)檢測(cè)及語音識(shí)別。最終在生產(chǎn)應(yīng)用,抽樣質(zhì)檢,字錯(cuò)率<5%,字準(zhǔn)率>96%。

2.2、流式引擎的接入

在流式引擎的實(shí)踐中,要解決的一個(gè)重要問題是算力資源的調(diào)度。區(qū)別于常見的Http接口服務(wù),可以采用輪詢等常規(guī)負(fù)載均衡策略,流式的任務(wù)會(huì)占用不定時(shí)長的鏈接和算力資源。在給定算力(CPU/GPU)資源并滿足業(yè)務(wù)處理時(shí)延前提下,其能處理的最大連接數(shù)是確定的,如果此時(shí)增加了任務(wù)數(shù),則會(huì)分出去一些算力,導(dǎo)致整體請(qǐng)求時(shí)延下降。兩個(gè)場(chǎng)景都是深度交互式的業(yè)務(wù),用戶的忍耐等待回復(fù)的時(shí)長有限,稍長一點(diǎn)的時(shí)延,用戶就可能立刻掛斷電話。

我們?cè)诼涞貢r(shí),引入了引擎的自動(dòng)服務(wù)發(fā)現(xiàn)并實(shí)現(xiàn)了一個(gè)登錄服務(wù)器。引擎啟動(dòng)后需要主動(dòng)向服務(wù)發(fā)現(xiàn)模塊提交它自己的實(shí)例ID和它所能支持的最大連接數(shù)。在接收到一個(gè)任務(wù)或完成任務(wù)后,也需要向服務(wù)發(fā)現(xiàn)模塊更新其已使用的連接數(shù)和剩余連接數(shù)。使用ASR能力的客戶端,完成兩個(gè)步驟才能使用接口。首先通過登錄服務(wù)器查到最優(yōu)實(shí)例(Http),再根據(jù)實(shí)例訪問對(duì)應(yīng)的實(shí)時(shí)流式接口(Websocket)。

2.3、電話系統(tǒng)的接入

在完成流式接入并支持精確負(fù)載后,如何接入電話系統(tǒng)是另一個(gè)要解決的問題,這里使用到了行業(yè)主流的接入?yún)f(xié)議—媒體資源控制協(xié)議(Media Resource Control Protocol,MRCP)。

MRCP 是一個(gè)標(biāo)準(zhǔn)、統(tǒng)一、可擴(kuò)展的協(xié)議,主要應(yīng)用語音識(shí)別、TTS 合成、錄音、聲紋識(shí)別(確認(rèn)是否為某一類群體),聲紋認(rèn)證等能力的接入。MRCP 是一個(gè)框架,同時(shí)也是一個(gè)協(xié)議。該框架定義了它的網(wǎng)絡(luò)基本組件及相互關(guān)系。它使用 SIP 協(xié)議來控制會(huì)話管理,使用 RTP 進(jìn)行媒體流傳輸。它的協(xié)議定義了它如何控制媒體資源的過程。 MRCP 是基于文本的協(xié)議,與 HTTP、SIP 的結(jié)構(gòu)類似。

自研mrcp-server及asr/tts插件,在插件中通過websocket方式調(diào)用流式ASR引擎,通過http方案調(diào)用tts引擎。


2.4、整體的部署

通過創(chuàng)建固定的虛擬 IP (VIP),提供統(tǒng)一的服務(wù)訪問入口;通過分別部署ASR/TTS插件實(shí)例隔離合成與識(shí)別的影響;通過跨地域多機(jī)房部署,提高服務(wù)的穩(wěn)定性。

采用keepalived+vip技術(shù),所有SIP請(qǐng)求會(huì)發(fā)往某臺(tái)SIP網(wǎng)關(guān)虛擬主機(jī)。當(dāng)這臺(tái)主機(jī)故障后,流量會(huì)自動(dòng)發(fā)給備份機(jī)。

網(wǎng)關(guān)自身通過數(shù)據(jù)庫同步狀態(tài)信息,當(dāng)發(fā)生故障轉(zhuǎn)移后,備份機(jī)可以從數(shù)據(jù)庫獲取最近一次狀態(tài)并接著工作。網(wǎng)關(guān)記錄著所有資源節(jié)點(diǎn)并定時(shí)探活,當(dāng)有資源節(jié)點(diǎn)出現(xiàn)異常時(shí)則自動(dòng)踢出轉(zhuǎn)發(fā)列表。如果需要維護(hù)升級(jí)資源節(jié)點(diǎn),也可以通 過網(wǎng)關(guān)api把資源節(jié)點(diǎn)移除轉(zhuǎn)發(fā)列表,待升級(jí)后再加入轉(zhuǎn)發(fā)列表。

keepalived機(jī)制保障了網(wǎng)關(guān)的高可用,網(wǎng)關(guān)轉(zhuǎn)發(fā)列表保障了mrcp服務(wù)的高可用。

在最后端的引擎層,在公有云上同樣有一套實(shí)例,平時(shí)未啟動(dòng)。在故障發(fā)生后快速拉起,并通過專線為MRCP接入層提供能力服務(wù),更大限度的保障了系統(tǒng)的可用。

而且watch-Dog的巡檢功能,則在系統(tǒng)整體發(fā)生故障時(shí),還會(huì)通知上游軟交換平臺(tái),去切換其它機(jī)房。


未來展望

隨著人工智能和深度學(xué)習(xí)的發(fā)展,智能語音技術(shù)也在不斷提高其精確度、實(shí)時(shí)性和可用性,結(jié)合大語言模型的發(fā)展,在意圖理解等場(chǎng)景下有更好的效果,或者能夠通過強(qiáng)化學(xué)習(xí)自我優(yōu)化,根據(jù)環(huán)境和用戶反饋調(diào)整其行為。在呼叫中心場(chǎng)景,將會(huì)讓系統(tǒng)更準(zhǔn)確理解客戶的意圖和需求,并能夠根據(jù)顧客的偏好和過往行為提供個(gè)性化的服務(wù)和建議,也可通過分析用戶的語言,檢測(cè)情緒的變化,并相應(yīng)調(diào)整回應(yīng)方式以更好地處理敏感或不滿的客戶,進(jìn)而顯著提高客戶滿意度和服務(wù)效率。


共0條評(píng)論網(wǎng)友評(píng)論
  • 全部評(píng)論
共0條記錄(共頁)
向您推薦

新聞 按行業(yè)分類

廠商 按產(chǎn)品分類


        
總機(jī):021-51601170 直線:021-58307717,17317241681(微信同號(hào)) 電子郵件:cct@51callcenter.com  瀘ICP備10026114號(hào)-4  行業(yè)交流俱樂部QQ:2919157212
地址:上海市浦東新區(qū)牡丹路60號(hào)東辰大廈810室  郵編:201204 上海趨天網(wǎng)絡(luò)技術(shù)服務(wù)有限公司 版權(quán)所有(2002-2018)