隨著智能客服機(jī)器人產(chǎn)業(yè)的迅速發(fā)展，尤其是伴隨著人工智能AI的風(fēng)潮，預(yù)計(jì)在2020年我國智能客服市場將達(dá)到萬億級別。在智能客服機(jī)器人領(lǐng)域中對電話信道語音進(jìn)行端點(diǎn)檢測處理的應(yīng)用正在不斷擴(kuò)展和深化。

　　目前語音端點(diǎn)檢測(Voice Active Detection，簡稱VAD)的主要任務(wù)是準(zhǔn)確快速判決出待處理的語音信號有話還是無話，作為自動(dòng)語音識別(Automatic Speech Recognition，簡稱ASR)系統(tǒng)的前置處理模塊，一旦檢測到話音信號，就啟動(dòng)ASR系統(tǒng)，并進(jìn)行話音數(shù)據(jù)流的傳輸。

　　準(zhǔn)確的VAD將提高自動(dòng)語音識別系統(tǒng)的利用率和減少語音處理的數(shù)據(jù)量。

　　然而現(xiàn)實(shí)應(yīng)用環(huán)境中，智能客服的應(yīng)用場景十分廣泛，話音活動(dòng)檢測面臨的噪聲環(huán)境種類多樣。

　　一方面是外在環(huán)境的復(fù)雜，另一方面是方言和口音。外在環(huán)境復(fù)雜包括噪聲、混響、回聲等，而且噪音又分為不同的會(huì)議室、戶外、商場等不同環(huán)境；在方言、口音方面，大家都知道，在我們國家，幾十種方言，每個(gè)人都有自己的獨(dú)特口音。

　　隨著智能客服機(jī)器人的快速發(fā)展，在電話語音客服機(jī)器人系統(tǒng)中實(shí)現(xiàn)大規(guī)模穩(wěn)健性好、精準(zhǔn)性高、魯棒性強(qiáng)、運(yùn)算量少的電話語音實(shí)時(shí)檢測技術(shù)，具有迫切的現(xiàn)實(shí)需求。

　　在電話語音交互場景中，VAD面臨著兩個(gè)難題：

　　1、可以成功檢測到最低能量的語音(靈敏度)

　　2、如何在多變復(fù)雜噪聲環(huán)境下成功檢測（漏檢率和虛檢率）

　　漏檢反應(yīng)的是原本是語音但是沒有檢測出來，而虛檢率反應(yīng)的是不是語音信號而被檢測成語音信號的概率。

　　相對而言漏檢是不可接受的，而虛檢可以通過后端的ASR和NLP算法進(jìn)一步過濾，但是虛檢會(huì)帶來系統(tǒng)資源利用率上升，以及造成響應(yīng)不及時(shí)。

　　對于在目標(biāo)人交互語音前發(fā)生虛檢，主要問題是增加ASR識別處理數(shù)據(jù)量，如下圖所示：

　　對于在目標(biāo)人交互語音后發(fā)生虛檢，不僅增加ASR識別處理數(shù)據(jù)量，還會(huì)造成響應(yīng)不及時(shí)。

　　傳統(tǒng)的斷句是基于能量的檢測來判定，但是有兩個(gè)主要缺點(diǎn)：

　　1、一是無法過濾噪音和無效的語音

　　2、另外就是對說話人的要求較高（中間不能有停頓。如果句間停頓時(shí)長設(shè)置的太短，容易造成截?cái)�；句間停頓時(shí)長設(shè)置太長，又會(huì)造成響應(yīng)不及時(shí)）如下圖所示：

　　電話語音機(jī)器人采用的是全雙工交互方式。

　　作為一個(gè)持續(xù)的交互過程，不只是持續(xù)的拾音和網(wǎng)絡(luò)傳輸，更需要包括持續(xù)的語音喚醒、智能有效人聲檢測、動(dòng)態(tài)語音端點(diǎn)檢測、無效語音拒識等各個(gè)模塊相互配合，才能確保語音識別和語義理解模塊能做出快速的響應(yīng)。

　　目前，壹鴿科技采用的技術(shù)架構(gòu)如下圖所示：

　　通過語音喚醒來觸發(fā)語音識別，主要是降低虛檢，盡量避免無意義的音頻送入ASR識別，為保證在觸發(fā)語音識別后所送往ASR的音頻流的完整性，采用了前瞻技術(shù)，如下圖所示：

　　為了確保語音識別和語義理解能夠做出快速的響應(yīng)，壹鴿科技采用了基于模型的有效人聲智能檢測和基于用戶意圖的動(dòng)態(tài)語音端點(diǎn)檢測。

　　1.基于模型的有效人聲智能檢測

　　基于模型的檢測可以有效解決噪音和無效語音。這塊主要是通過采集不同環(huán)境的噪音，基于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練出對應(yīng)聲學(xué)模型，進(jìn)行過濾，把有效語音傳送到ASR服務(wù)器進(jìn)行交互。

　　2.基于用戶意圖的動(dòng)態(tài)語音端點(diǎn)檢測

　　動(dòng)態(tài)端點(diǎn)檢測算法實(shí)現(xiàn)從連續(xù)輸入的數(shù)據(jù)流中檢測出包含完整用戶意圖的語音送入語義理解模塊，可以很好的解決用戶的停頓，因?yàn)樵谌藱C(jī)的交流過程中，在一句包含完整意圖語音中，停頓是很常見的現(xiàn)象，這在我們對用戶的行為分析中得到驗(yàn)證。

　　在持續(xù)的語音交互過程中，由于不同地區(qū)方言、口音差異，ASR識別后文本語料中含有大量的同音錯(cuò)誤、音近錯(cuò)誤，如平卷舌差異、前后鼻音差異、“了”(l)“呢”(n)差異以及“胡”(h)“福”(f)差異等用戶大量無意識的輸入錯(cuò)誤及語音識別錯(cuò)誤，造成大量語音識別錯(cuò)誤文本送給后續(xù)的語義理解模塊處理并做出交互動(dòng)作，導(dǎo)致語音交互流程不可控，嚴(yán)重影響交互體驗(yàn)。

　　針對全雙工交互中被吸收進(jìn)來的無效的語音和無關(guān)說話內(nèi)容，拒識和語音識別后文本糾錯(cuò)是必須。

　　目前壹鴿科技正在從聲學(xué)信號、語義等多個(gè)方面對接收的語音進(jìn)行拒識判斷和語音識別后文本糾錯(cuò)技術(shù)研究。

　　電話錄音通常存在著大量的背景噪聲、方言口音、信道干擾，而且電話錄音通常采用較低的采樣率，音質(zhì)不高，這些都嚴(yán)重影響到語音識別的準(zhǔn)確率。

　　語音識別穩(wěn)定度方面，我們主要考察語音識別引擎輸出結(jié)果的統(tǒng)計(jì)特性，將通話錄音識別結(jié)果輸出音頻檢索網(wǎng)絡(luò)，通過比較正確的語句和大量的錯(cuò)誤語句，可以集中發(fā)現(xiàn)其中比較穩(wěn)定和容易出錯(cuò)的部分，如發(fā)現(xiàn)一些出錯(cuò)較為頻繁的短文本，例如：

　　正確語句

　　查快遞

　　錯(cuò)誤語句

　　前快遞、車快遞、千快遞、彩快遞、曹快遞、送快遞、天快遞等

　　將這些出錯(cuò)較為頻繁的短文本指定為語音關(guān)鍵字符串，在檢索網(wǎng)絡(luò)中進(jìn)行匹配，輸出檢索結(jié)果，如下圖所示：

　　某些詞語的發(fā)音組合對于語音識別系統(tǒng)很容易確定，而另一些則容易造成錯(cuò)誤，特別是漢語。來自不同地域的人在某些音節(jié)發(fā)聲的時(shí)候容易出現(xiàn)不規(guī)范的現(xiàn)象。

　　對于這種現(xiàn)象進(jìn)行統(tǒng)計(jì)，可以得到不同高頻短文本的置信度，透過置信度評價(jià)來衡量前端識別的可靠性，對于那些可能是錯(cuò)誤的結(jié)果，加以特別的處理，或者將之完全舍棄，讓系統(tǒng)僅接受正確的部分，在很大程度上拓展了語音識別的應(yīng)用范圍。

天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

壹鴿技術(shù)科普·智能語音客服系統(tǒng)中的前端語音處理技術(shù)

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)