婷婷激情丁香六月开心五月,最新欧美精品一区二区三区,最新国产精品精品视频视频,亚洲国产成人爱av网站,中文字幕av无码一区二区三区电影

<u id="jfwfv"></u>

17317241681(微信同號)

首頁>> 企業(yè)>>新聞詳情

順豐科技深耕智能語音語言技術(shù)，深度賦能行業(yè)及全場景

2024-01-04 17:47 《4PS呼叫中心國際標(biāo)準(zhǔn)研究中心》咨詢電話：17317241681(微信同號)

智能語音技術(shù)快速發(fā)展，應(yīng)用領(lǐng)域日益廣泛

智能語音語言技術(shù)，是人工智能領(lǐng)域應(yīng)用的一個分支，當(dāng)前已經(jīng)廣泛應(yīng)用于各行各業(yè)。核心技術(shù)包括智能語音識別，智能語音合成，自然語言處理等，隨著新方案的迭代和涌現(xiàn)，在近年來發(fā)展趨勢迅猛。全流程的應(yīng)用場景，典型的有智能客服機器人，除此之外，在傳媒制作、智能家居、辦公協(xié)同、車載等場景都有深度的應(yīng)用。而順豐呼叫中心，也應(yīng)用了這項技術(shù)，以便更好地服務(wù)客戶。

主動觸達(dá)客戶，順豐呼叫中心智能語音技術(shù)的深度應(yīng)用

順豐呼叫中心幾個關(guān)健系統(tǒng)，有智能外呼系統(tǒng)、智能應(yīng)用系統(tǒng)及人工客服系統(tǒng)。外呼是呼叫客戶，主要是一些通知觸達(dá)場景，比如派件前先跟用戶預(yù)約某時間是否可上門等。智能應(yīng)答系統(tǒng)，是處理用戶主動呼入的情況，場景更為復(fù)雜，包括下單、消單、咨詢等場景。在智能系統(tǒng)解決不了用戶需求的時候，會有打斷邏輯轉(zhuǎn)到人工服系統(tǒng)。

三個系統(tǒng)都用到了智能語音語言技術(shù)，其中智能系統(tǒng)全流程用到了識別、合成及意圖理解與對話生成。人工客服系統(tǒng)產(chǎn)生的大量錄音數(shù)據(jù)則由質(zhì)檢系統(tǒng)將音頻轉(zhuǎn)成文本并檢查客服的通話話術(shù)。

語音合成的應(yīng)用

語音合成，也叫TTS（text to speech），根據(jù)輸入的文本，輸出自然的語音。語音合成引擎一般分為前端語言學(xué)模型與后端的聲學(xué)模型，語言學(xué)系統(tǒng)負(fù)責(zé)語言解析處理，一般功能有語種分析，分詞，多音字處理，韻律預(yù)測等，而后端聲學(xué)系統(tǒng)則根據(jù)前面的這些信息，合成語音。目前后端系統(tǒng)從最開始的簡單拼接方式，到基于深度學(xué)習(xí)的參數(shù)合成，發(fā)展到現(xiàn)在比較流行的端到端方案，合成效果越來越好。

當(dāng)前線上正在運行的方案是基于參數(shù)合成的方案，相比于拼接方案，其合的語音連接平穩(wěn)，質(zhì)量高，但對聲碼器有一定的依賴。前端從文本中提取發(fā)音和韻律信息，而后端則將前端輸出轉(zhuǎn)成語音特征和語音數(shù)據(jù)流。

TTS的合成效果測評一般有兩種，第一種是采用Mos測評，這種方法主要關(guān)注于語音本身的質(zhì)量，會對音質(zhì)，流暢度，正確性，自然度，分詞，停頓，音色等，進(jìn)行主觀打分評價，再根據(jù)平均值得到TTS系統(tǒng)的最終評分。而第二種是ABX測評，通過相同文本的輸出對比不出的TTS系統(tǒng)合成效果。當(dāng)前線上版本使用ABX測試，超出原有供應(yīng)商5%以上，符合平替要求。

除了合成的效果，還有一個系統(tǒng)性能的維度用來評價合成，這里主要有實時率指標(biāo)（RTF），首幀響應(yīng)時間（RT），及系統(tǒng)并發(fā)三個關(guān)健指標(biāo)。基于此，引擎的實現(xiàn)過程中調(diào)研實測了多種聲學(xué)模型與聲碼器。

最終，結(jié)合實際語音合成效果，第一版本生產(chǎn)實測RTF<0.02，RT<200ms。

結(jié)合系統(tǒng)應(yīng)用場景，及引擎的性能，當(dāng)前版本TTS未實現(xiàn)流式合成，并且采用Http接口封裝對呼叫系統(tǒng)提供原子能力。

以上是基于參數(shù)的合成，已在生產(chǎn)大規(guī)模應(yīng)用。而基于端到端bert_vits模型的第二大版本引擎，目前還在測試階段，根據(jù)目前的測試效果，中文句子停頓自然，比原方案稍好，而中文加英文字母停頓有時候不自然；另外在地址播報上也更自然，接近真人停頓習(xí)慣。

語音識別的主要應(yīng)用場景和方案

語音識別，也叫語音轉(zhuǎn)寫，目的是將音頻流轉(zhuǎn)成文字。其引擎方案一般由特征提取、聲學(xué)模型（AM），語言模型（LM），和解碼搜索四部分構(gòu)成。整個識別過程先對音頻流進(jìn)行處理，消除噪聲和信道失真，并對對語音進(jìn)行增強，然后分割聲音片段并轉(zhuǎn)換成一系列數(shù)值，再通過聲學(xué)模型識別數(shù)值，最終利用語言模型解碼搜索匹配得到最優(yōu)的詞序列作為識別結(jié)果輸出。

特征提?。?/span>音頻模擬信號輸入，將其轉(zhuǎn)為數(shù)字信號，提取聲音特征，供聲學(xué)模型提取合適有代表性的特征向量

聲學(xué)模型：將聲學(xué)和發(fā)音學(xué)的知識進(jìn)行整合，以特征提取部分生成的特征為輸入，并為可變長特征序列生成聲學(xué)模型分?jǐn)?shù)

語言模型：通過訓(xùn)練語料/數(shù)據(jù)（通常是文本形式）學(xué)習(xí)詞之間的相互關(guān)系，來估計假設(shè)詞序列的可能性，找出該聲音特征最有可能對應(yīng)的文字序列

解碼搜索：對給定的特征向量序列和若干假設(shè)詞序列計算聲學(xué)模型分?jǐn)?shù)和語言模型分?jǐn)?shù)，將總體輸出分?jǐn)?shù)最高的詞序列作為識別結(jié)果。

在實際的場景中，語音識別主要分為非流式識別和流式識別。非流式識別將長音頻數(shù)據(jù)轉(zhuǎn)文本，常應(yīng)用在離線場景如影視字幕制作、客服錄音質(zhì)檢等，順豐內(nèi)部即主要應(yīng)用于小哥和客服錄音的質(zhì)檢。流式識別，輸入語音流，實時輸出帶有時間戳的文字流，常應(yīng)用于直播字幕、實時會議記錄、翻譯同傳等場景，順豐主要應(yīng)用在智能呼叫系統(tǒng)上。

流式識別與非流式識別在可用數(shù)據(jù)、模型精度和系統(tǒng)評價指標(biāo)上都有一些區(qū)別，如下表：

	流式語音識別	非流式語音識別
可用數(shù)據(jù)	history數(shù)據(jù)＋少量future數(shù)據(jù)	全部history + future數(shù)據(jù)
模型精度	低	高
數(shù)據(jù)輸入	N秒/次，如N=0.5	一次性輸入完整數(shù)據(jù)
結(jié)果獲取	實時輸出	解碼完成一次性輸出
運行效率指標(biāo)	最后一次送入數(shù)據(jù)到獲得最終結(jié)果的時延	RTF (受時長影響波動)

1、非流式語音識別在質(zhì)檢系統(tǒng)的應(yīng)用

ASR應(yīng)用在質(zhì)檢系統(tǒng)上，多出了一些額外的功能，如話者分離，用于分開坐席與客戶音頻，以便可以只針對坐席做質(zhì)檢。另外還有后處理中的文本角色識別、規(guī)則質(zhì)檢等，也是流式處理中所沒有的。

質(zhì)檢系統(tǒng)整體方案如下，數(shù)據(jù)主流程和其中的ASR轉(zhuǎn)寫、規(guī)則質(zhì)檢是最核心的一部分。上游話單數(shù)據(jù)通過kafka和接口的方式接入。主流程接入數(shù)據(jù)后進(jìn)行了初步的過濾和轉(zhuǎn)存，生成話單和質(zhì)檢任務(wù)。ASR引擎是無狀態(tài)分布式架構(gòu)，平臺提供冪等接口供引擎服務(wù)查詢未處理任務(wù)，每個ASR服務(wù)啟動之后，通過接口獲取任務(wù)進(jìn)行質(zhì)檢，完成或中間失敗則通過平臺的回調(diào)接口返回狀態(tài)，通過kafka返回數(shù)據(jù)。平臺實現(xiàn)了一套規(guī)則引擎，質(zhì)檢使用業(yè)務(wù)人員配置規(guī)則進(jìn)行。

2、流式語音識別在呼入呼出中的應(yīng)用

2.1、引擎

ASR的流式版本，在順豐場景中主要應(yīng)用在智能外呼系統(tǒng)和智能應(yīng)答系統(tǒng)。引擎使用支持流式處理的端點檢測及語音識別。最終在生產(chǎn)應(yīng)用，抽樣質(zhì)檢，字錯率<5%,字準(zhǔn)率>96%。

2.2、流式引擎的接入

在流式引擎的實踐中，要解決的一個重要問題是算力資源的調(diào)度。區(qū)別于常見的Http接口服務(wù)，可以采用輪詢等常規(guī)負(fù)載均衡策略，流式的任務(wù)會占用不定時長的鏈接和算力資源。在給定算力（CPU/GPU）資源并滿足業(yè)務(wù)處理時延前提下，其能處理的最大連接數(shù)是確定的，如果此時增加了任務(wù)數(shù)，則會分出去一些算力，導(dǎo)致整體請求時延下降。兩個場景都是深度交互式的業(yè)務(wù)，用戶的忍耐等待回復(fù)的時長有限，稍長一點的時延，用戶就可能立刻掛斷電話。

我們在落地時，引入了引擎的自動服務(wù)發(fā)現(xiàn)并實現(xiàn)了一個登錄服務(wù)器。引擎啟動后需要主動向服務(wù)發(fā)現(xiàn)模塊提交它自己的實例ID和它所能支持的最大連接數(shù)。在接收到一個任務(wù)或完成任務(wù)后，也需要向服務(wù)發(fā)現(xiàn)模塊更新其已使用的連接數(shù)和剩余連接數(shù)。使用ASR能力的客戶端，完成兩個步驟才能使用接口。首先通過登錄服務(wù)器查到最優(yōu)實例（Http），再根據(jù)實例訪問對應(yīng)的實時流式接口（Websocket）。

2.3、電話系統(tǒng)的接入

在完成流式接入并支持精確負(fù)載后，如何接入電話系統(tǒng)是另一個要解決的問題，這里使用到了行業(yè)主流的接入?yún)f(xié)議—媒體資源控制協(xié)議（Media Resource Control Protocol，MRCP）。

MRCP 是一個標(biāo)準(zhǔn)、統(tǒng)一、可擴展的協(xié)議，主要應(yīng)用語音識別、TTS 合成、錄音、聲紋識別（確認(rèn)是否為某一類群體），聲紋認(rèn)證等能力的接入。MRCP 是一個框架，同時也是一個協(xié)議。該框架定義了它的網(wǎng)絡(luò)基本組件及相互關(guān)系。它使用 SIP 協(xié)議來控制會話管理，使用 RTP 進(jìn)行媒體流傳輸。它的協(xié)議定義了它如何控制媒體資源的過程。 MRCP 是基于文本的協(xié)議，與 HTTP、SIP 的結(jié)構(gòu)類似。

自研mrcp-server及asr/tts插件，在插件中通過websocket方式調(diào)用流式ASR引擎，通過http方案調(diào)用tts引擎。

2.4、整體的部署

通過創(chuàng)建固定的虛擬 IP (VIP)，提供統(tǒng)一的服務(wù)訪問入口；通過分別部署ASR/TTS插件實例隔離合成與識別的影響；通過跨地域多機房部署，提高服務(wù)的穩(wěn)定性。

采用keepalived+vip技術(shù)，所有SIP請求會發(fā)往某臺SIP網(wǎng)關(guān)虛擬主機。當(dāng)這臺主機故障后，流量會自動發(fā)給備份機。

網(wǎng)關(guān)自身通過數(shù)據(jù)庫同步狀態(tài)信息，當(dāng)發(fā)生故障轉(zhuǎn)移后，備份機可以從數(shù)據(jù)庫獲取最近一次狀態(tài)并接著工作。網(wǎng)關(guān)記錄著所有資源節(jié)點并定時探活，當(dāng)有資源節(jié)點出現(xiàn)異常時則自動踢出轉(zhuǎn)發(fā)列表。如果需要維護(hù)升級資源節(jié)點，也可以通過網(wǎng)關(guān)api把資源節(jié)點移除轉(zhuǎn)發(fā)列表，待升級后再加入轉(zhuǎn)發(fā)列表。

keepalived機制保障了網(wǎng)關(guān)的高可用，網(wǎng)關(guān)轉(zhuǎn)發(fā)列表保障了mrcp服務(wù)的高可用。

在最后端的引擎層，在公有云上同樣有一套實例，平時未啟動。在故障發(fā)生后快速拉起，并通過專線為MRCP接入層提供能力服務(wù)，更大限度的保障了系統(tǒng)的可用。

而且watch-Dog的巡檢功能，則在系統(tǒng)整體發(fā)生故障時，還會通知上游軟交換平臺，去切換其它機房。

未來展望

隨著人工智能和深度學(xué)習(xí)的發(fā)展，智能語音技術(shù)也在不斷提高其精確度、實時性和可用性，結(jié)合大語言模型的發(fā)展，在意圖理解等場景下有更好的效果，或者能夠通過強化學(xué)習(xí)自我優(yōu)化，根據(jù)環(huán)境和用戶反饋調(diào)整其行為。在呼叫中心場景，將會讓系統(tǒng)更準(zhǔn)確理解客戶的意圖和需求，并能夠根據(jù)顧客的偏好和過往行為提供個性化的服務(wù)和建議，也可通過分析用戶的語言，檢測情緒的變化，并相應(yīng)調(diào)整回應(yīng)方式以更好地處理敏感或不滿的客戶，進(jìn)而顯著提高客戶滿意度和服務(wù)效率。

共0條評論網(wǎng)友評論

全部評論

共0條記錄（共頁）

向您推薦

免費加入呼叫中心俱樂部企業(yè)
QQ：1780135810

新聞按行業(yè)分類

廠商按產(chǎn)品分類

總機：021-51601170 直線：021-58307717，17317241681（微信同號）電子郵件：cct@51callcenter.com 瀘ICP備10026114號-4 行業(yè)交流俱樂部QQ：2919157212
地址：上海市浦東新區(qū)牡丹路60號東辰大廈810室郵編：201204 上海趨天網(wǎng)絡(luò)技術(shù)服務(wù)有限公司版權(quán)所有（2002-2018）