導(dǎo)讀：目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory），但是，這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題，尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用�？拼笥嶏w在今年提出了一種全新的語(yǔ)音識(shí)別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN，Deep Fully Convolutional NeuralNetwork），更適合工業(yè)應(yīng)用。本文是對(duì)科大訊飛使用DFCNN應(yīng)用于語(yǔ)音轉(zhuǎn)寫技術(shù)的詳細(xì)解讀，其外還包含了語(yǔ)音轉(zhuǎn)寫中口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理、噪聲和遠(yuǎn)場(chǎng)識(shí)別和文本處理實(shí)時(shí)糾錯(cuò)以及文字后處理等技術(shù)的分析。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

　　人工智能的應(yīng)用中，語(yǔ)音識(shí)別在今年來(lái)取得顯著進(jìn)步，不管是英文、中文或者其他語(yǔ)種，機(jī)器的語(yǔ)音識(shí)別準(zhǔn)確率在不斷上升。其中，語(yǔ)音聽(tīng)寫技術(shù)的發(fā)展最為迅速，目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。但是，語(yǔ)音應(yīng)用的另一層面，即語(yǔ)音轉(zhuǎn)寫，目前仍存在一定的難點(diǎn)，由于在產(chǎn)生錄音文件的過(guò)程中使用者并沒(méi)有預(yù)計(jì)到該錄音會(huì)被用于語(yǔ)音識(shí)別，因而與語(yǔ)音聽(tīng)寫相比，語(yǔ)音轉(zhuǎn)寫將面臨說(shuō)話風(fēng)格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。

　　語(yǔ)音轉(zhuǎn)寫的典型場(chǎng)景包括，記者采訪、電視節(jié)目、課堂及交談式會(huì)議等等，甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語(yǔ)音轉(zhuǎn)寫的市場(chǎng)及想象空間是巨大的，想象一下，如果人類可以征服語(yǔ)音轉(zhuǎn)寫，電視節(jié)目可以自動(dòng)生動(dòng)字幕、正式會(huì)議可以自動(dòng)形成記要、記者采訪的錄音可以自動(dòng)成稿……人的一生中說(shuō)的話要比我們寫過(guò)的字多的多，如果有一個(gè)軟件能記錄我們所說(shuō)過(guò)的所有的話并進(jìn)行高效的管理，這個(gè)世界將會(huì)多么的讓人難以置信。

　　基于DFCNN的聲學(xué)建模技術(shù)

　　語(yǔ)音識(shí)別的聲學(xué)建模主要用于建模語(yǔ)音信號(hào)與音素之間的關(guān)系，科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN，F(xiàn)eed-forward Sequential Memory Network)作為聲學(xué)建�？蚣芎螅衲暝俅瓮瞥鋈碌恼Z(yǔ)音識(shí)別框架，即深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN，Deep Fully Convolutional NeuralNetwork）。

　　目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory），這種網(wǎng)絡(luò)能夠?qū)φZ(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模，從而提高識(shí)別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題，尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來(lái)克服雙向LSTM的缺陷。

　　CNN早在2012年就被用于語(yǔ)音識(shí)別系統(tǒng)，但始終沒(méi)有大的突破。主要的原因是其使用固定長(zhǎng)度的幀拼接作為輸入，無(wú)法看到足夠長(zhǎng)的語(yǔ)音上下文信息；另外一個(gè)缺陷將CNN視作一種特征提取器，因此所用的卷積層數(shù)很少，表達(dá)能力有限。

　　針對(duì)這些問(wèn)題，DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。首先，在輸入端DFCNN直接將語(yǔ)譜圖作為輸入，相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次，在模型結(jié)構(gòu)上，借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置，每個(gè)卷積層使用小卷積核，并在多個(gè)卷積層之后再加上池化層，通過(guò)累積非常多的卷積池化層對(duì)，從而可以看到非常長(zhǎng)的歷史和未來(lái)信息。這兩點(diǎn)保證了DFCNN可以出色的表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性，相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色，同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線解碼，從而可用于工業(yè)系統(tǒng)中。

（DFCNN 結(jié)構(gòu)圖）

　　口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理技術(shù)

　　語(yǔ)音識(shí)別的語(yǔ)言模型主要用于建模音素與字詞之間的對(duì)應(yīng)關(guān)系。由于人類的口語(yǔ)為無(wú)組織性的自然語(yǔ)言，人們?cè)谧杂蓪?duì)話時(shí)，通常會(huì)出現(xiàn)猶豫、回讀、語(yǔ)氣詞等復(fù)雜的語(yǔ)言現(xiàn)象，而以文字形式存在的語(yǔ)料通常為書面語(yǔ)，這兩種之間的鴻溝使得針對(duì)口語(yǔ)語(yǔ)言的語(yǔ)言模型建模面臨極大的挑戰(zhàn)。

　　科大訊飛借鑒了語(yǔ)音識(shí)別處理噪聲問(wèn)題采用加噪訓(xùn)練的思想，即在書面語(yǔ)的基礎(chǔ)上自動(dòng)引入回讀、倒裝、語(yǔ)氣詞等口語(yǔ)“噪聲”現(xiàn)象，從而可自動(dòng)生成海量口語(yǔ)語(yǔ)料，解決口語(yǔ)和書面語(yǔ)之間的不匹配問(wèn)題。首先，收集部分口語(yǔ)文本和書面文本語(yǔ)料對(duì)；其次，使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語(yǔ)文本與口語(yǔ)文本之間的對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)了口語(yǔ)文本的自動(dòng)生成。

　　另外，上下文信息可以較大程度幫助人類對(duì)語(yǔ)言的理解，對(duì)于機(jī)器轉(zhuǎn)錄也是同樣的道理。因而，科大訊飛在去年12月21提出了篇章級(jí)語(yǔ)言模型的方案，該方案根據(jù)語(yǔ)音識(shí)別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取，實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理，用解碼結(jié)果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型，從而進(jìn)一步提高語(yǔ)音轉(zhuǎn)寫的準(zhǔn)確率。

　�。ㄆ录�(jí)語(yǔ)言模型流程圖）

　　噪聲和遠(yuǎn)場(chǎng)識(shí)別技術(shù)

　　語(yǔ)音識(shí)別的應(yīng)用遠(yuǎn)場(chǎng)拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會(huì)議的場(chǎng)景下，如果使用錄音筆進(jìn)行錄音，離錄音筆較遠(yuǎn)說(shuō)話人的語(yǔ)音即為遠(yuǎn)場(chǎng)帶混響語(yǔ)音，由于混響會(huì)使得不同步的語(yǔ)音相互疊加，帶來(lái)了音素的交疊掩蔽效應(yīng)，從而嚴(yán)重影響語(yǔ)音識(shí)別效果；同樣，如果錄音環(huán)境中存在背景噪聲，語(yǔ)音頻譜會(huì)被污染，其識(shí)別效果也會(huì)急劇下降�？拼笥嶏w針對(duì)該問(wèn)題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù)，使得遠(yuǎn)場(chǎng)、噪聲情況下的語(yǔ)音轉(zhuǎn)寫也達(dá)到了實(shí)用門檻。

　　單麥克降噪、解混響

　　對(duì)采集到的有損失語(yǔ)音，使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對(duì)干凈的語(yǔ)音進(jìn)行加噪，并與干凈語(yǔ)音一起進(jìn)行混合訓(xùn)練，從而提高模型對(duì)于帶噪語(yǔ)音的魯棒性（編者注：Robust的音譯，即健壯和強(qiáng)壯之意）；另一方面，使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響，進(jìn)一步提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

　　麥克風(fēng)陣列降噪、解混響

　　僅僅考慮在語(yǔ)音處理過(guò)程中的噪音可以說(shuō)是治標(biāo)不治本，如何從源頭上解決混響和降噪似乎才是問(wèn)題的關(guān)鍵。面對(duì)這一難題，科大訊飛研發(fā)人員通過(guò)在錄音設(shè)備上加上多麥克陣列，利用多麥克陣列進(jìn)行降噪與解混響。具體地，使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號(hào)，利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成，從而在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束，并衰減來(lái)自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合，可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

　　文本處理實(shí)時(shí)糾錯(cuò)+文字后處理

　　前面所說(shuō)的都只是對(duì)于語(yǔ)音的處理技術(shù)，即將錄音轉(zhuǎn)錄成文字，但正如上文所述人類的口語(yǔ)為無(wú)組織性的自然語(yǔ)言，即使在語(yǔ)音轉(zhuǎn)寫正確率非常高的情況下，語(yǔ)音轉(zhuǎn)寫文本的可閱讀性仍存在較大的問(wèn)題，所以文本后處理的重要性就體現(xiàn)了出來(lái)。所謂文本后處理即對(duì)口語(yǔ)化的文本進(jìn)行分句、分段，并對(duì)文本內(nèi)容的流利性進(jìn)行處理，甚至進(jìn)行內(nèi)容的摘要，以利于更好的閱讀與編輯。

　　后處理Ⅰ：分句與分段

　　分句，即對(duì)轉(zhuǎn)寫文本按語(yǔ)義進(jìn)行子句劃分，并在子句之間加注標(biāo)點(diǎn)；分段，即將一篇文本切分成若干個(gè)語(yǔ)義段落，每個(gè)段落描述的子主題各不相同。

　　通過(guò)提取上下文相關(guān)的語(yǔ)義特征，同時(shí)結(jié)合語(yǔ)音特征，來(lái)進(jìn)行子句與段落的劃分；考慮到有標(biāo)注的語(yǔ)音數(shù)據(jù)較難獲得，在實(shí)際運(yùn)用中科大訊飛利用兩級(jí)級(jí)聯(lián)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù)，從而較好的解決了分句與分段問(wèn)題。

　　后處理Ⅱ：內(nèi)容順滑

　　內(nèi)容順滑，又稱為不流暢檢測(cè)，即剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語(yǔ)氣詞、重復(fù)詞，使順滑后的文本更易于閱讀。

　　科大訊飛通過(guò)使用泛化特征并結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù)，使得內(nèi)容順滑的準(zhǔn)確率達(dá)到了實(shí)用階段。

天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

評(píng)論排行

推薦閱讀

專題