目前語音端點檢測(Voice Active Detection,簡稱VAD)的主要任務(wù)是準確快速判決出待處理的語音信號有話還是無話,作為自動語音識別(Automatic Speech Recognition,簡稱ASR)系統(tǒng)的前置處理模塊,一旦檢測到話音信號,就啟動ASR系統(tǒng),并進行話音數(shù)據(jù)流的傳輸。
準確的VAD將提高自動語音識別系統(tǒng)的利用率和減少語音處理的數(shù)據(jù)量。
然而現(xiàn)實應(yīng)用環(huán)境中,智能客服的應(yīng)用場景十分廣泛,話音活動檢測面臨的噪聲環(huán)境種類多樣。
一方面是外在環(huán)境的復(fù)雜,另一方面是方言和口音。外在環(huán)境復(fù)雜包括噪聲、混響、回聲等,而且噪音又分為不同的會議室、戶外、商場等不同環(huán)境;在方言、口音方面,大家都知道,在我們國家,幾十種方言,每個人都有自己的獨特口音。
隨著智能客服機器人的快速發(fā)展,在電話語音客服機器人系統(tǒng)中實現(xiàn)大規(guī)模穩(wěn)健性好、精準性高、魯棒性強、運算量少的電話語音實時檢測技術(shù),具有迫切的現(xiàn)實需求。
在電話語音交互場景中,VAD面臨著兩個難題:
1、可以成功檢測到最低能量的語音(靈敏度)
2、如何在多變復(fù)雜噪聲環(huán)境下成功檢測(漏檢率和虛檢率)
漏檢反應(yīng)的是原本是語音但是沒有檢測出來,而虛檢率反應(yīng)的是不是語音信號而被檢測成語音信號的概率。
相對而言漏檢是不可接受的,而虛檢可以通過后端的ASR和NLP算法進一步過濾,但是虛檢會帶來系統(tǒng)資源利用率上升,以及造成響應(yīng)不及時。
對于在目標人交互語音前發(fā)生虛檢,主要問題是增加ASR識別處理數(shù)據(jù)量,如下圖所示:


對于在目標人交互語音后發(fā)生虛檢,不僅增加ASR識別處理數(shù)據(jù)量,還會造成響應(yīng)不及時。
傳統(tǒng)的斷句是基于能量的檢測來判定,但是有兩個主要缺點:
1、一是無法過濾噪音和無效的語音
2、另外就是對說話人的要求較高(中間不能有停頓。如果句間停頓時長設(shè)置的太短,容易造成截斷;句間停頓時長設(shè)置太長,又會造成響應(yīng)不及時)如下圖所示:


電話語音機器人采用的是全雙工交互方式。
作為一個持續(xù)的交互過程,不只是持續(xù)的拾音和網(wǎng)絡(luò)傳輸,更需要包括持續(xù)的語音喚醒、智能有效人聲檢測、動態(tài)語音端點檢測、無效語音拒識等各個模塊相互配合,才能確保語音識別和語義理解模塊能做出快速的響應(yīng)。
目前,壹鴿科技采用的技術(shù)架構(gòu)如下圖所示:

通過語音喚醒來觸發(fā)語音識別,主要是降低虛檢,盡量避免無意義的音頻送入ASR識別,為保證在觸發(fā)語音識別后所送往ASR的音頻流的完整性,采用了前瞻技術(shù),如下圖所示:

為了確保語音識別和語義理解能夠做出快速的響應(yīng),壹鴿科技采用了基于模型的有效人聲智能檢測和基于用戶意圖的動態(tài)語音端點檢測。
1.基于模型的有效人聲智能檢測
基于模型的檢測可以有效解決噪音和無效語音。這塊主要是通過采集不同環(huán)境的噪音,基于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練出對應(yīng)聲學(xué)模型,進行過濾,把有效語音傳送到ASR服務(wù)器進行交互。
2.基于用戶意圖的動態(tài)語音端點檢測
動態(tài)端點檢測算法實現(xiàn)從連續(xù)輸入的數(shù)據(jù)流中檢測出包含完整用戶意圖的語音送入語義理解模塊,可以很好的解決用戶的停頓,因為在人機的交流過程中,在一句包含完整意圖語音中,停頓是很常見的現(xiàn)象,這在我們對用戶的行為分析中得到驗證。

在持續(xù)的語音交互過程中,由于不同地區(qū)方言、口音差異,ASR識別后文本語料中含有大量的同音錯誤、音近錯誤,如平卷舌差異、前后鼻音差異、“了”(l)“呢”(n)差異以及“胡”(h)“福”(f)差異等用戶大量無意識的輸入錯誤及語音識別錯誤,造成大量語音識別錯誤文本送給后續(xù)的語義理解模塊處理并做出交互動作,導(dǎo)致語音交互流程不可控,嚴重影響交互體驗。
針對全雙工交互中被吸收進來的無效的語音和無關(guān)說話內(nèi)容,拒識和語音識別后文本糾錯是必須。
目前壹鴿科技正在從聲學(xué)信號、語義等多個方面對接收的語音進行拒識判斷和語音識別后文本糾錯技術(shù)研究。
電話錄音通常存在著大量的背景噪聲、方言口音、信道干擾,而且電話錄音通常采用較低的采樣率,音質(zhì)不高,這些都嚴重影響到語音識別的準確率。
語音識別穩(wěn)定度方面,我們主要考察語音識別引擎輸出結(jié)果的統(tǒng)計特性,將通話錄音識別結(jié)果輸出音頻檢索網(wǎng)絡(luò),通過比較正確的語句和大量的錯誤語句,可以集中發(fā)現(xiàn)其中比較穩(wěn)定和容易出錯的部分,如發(fā)現(xiàn)一些出錯較為頻繁的短文本,例如:
正確語句
查快遞
錯誤語句
前快遞、車快遞、千快遞、彩快遞、曹快遞、送快遞、天快遞等
將這些出錯較為頻繁的短文本指定為語音關(guān)鍵字符串,在檢索網(wǎng)絡(luò)中進行匹配,輸出檢索結(jié)果,如下圖所示:

某些詞語的發(fā)音組合對于語音識別系統(tǒng)很容易確定,而另一些則容易造成錯誤,特別是漢語。來自不同地域的人在某些音節(jié)發(fā)聲的時候容易出現(xiàn)不規(guī)范的現(xiàn)象。
對于這種現(xiàn)象進行統(tǒng)計,可以得到不同高頻短文本的置信度,透過置信度評價來衡量前端識別的可靠性,對于那些可能是錯誤的結(jié)果,加以特別的處理,或者將之完全舍棄,讓系統(tǒng)僅接受正確的部分,在很大程度上拓展了語音識別的應(yīng)用范圍。