天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

您當前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)

2016-08-10 15:19:55   作者:   來源:訊飛研究院   評論:0  點擊cti:


  導讀:目前最好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)(LSTM,LongShort Term Memory),但是,這一系統(tǒng)存在訓練復雜度高、解碼時延高的問題,尤其在工業(yè)界的實時識別系統(tǒng)中很難應用?拼笥嶏w在今年提出了一種全新的語音識別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業(yè)應用。本文是對科大訊飛使用DFCNN應用于語音轉(zhuǎn)寫技術(shù)的詳細解讀,其外還包含了語音轉(zhuǎn)寫中口語化和篇章級語言模型處理、噪聲和遠場識別和文本處理實時糾錯以及文字后處理等技術(shù)的分析。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)
  人工智能的應用中,語音識別在今年來取得顯著進步,不管是英文、中文或者其他語種,機器的語音識別準確率在不斷上升。其中,語音聽寫技術(shù)的發(fā)展最為迅速,目前已廣泛在語音輸入、語音搜索、語音助手等產(chǎn)品中得到應用并日臻成熟。但是,語音應用的另一層面,即語音轉(zhuǎn)寫,目前仍存在一定的難點,由于在產(chǎn)生錄音文件的過程中使用者并沒有預計到該錄音會被用于語音識別,因而與語音聽寫相比,語音轉(zhuǎn)寫將面臨說話風格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。
  語音轉(zhuǎn)寫的典型場景包括,記者采訪、電視節(jié)目、課堂及交談式會議等等,甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語音轉(zhuǎn)寫的市場及想象空間是巨大的,想象一下,如果人類可以征服語音轉(zhuǎn)寫,電視節(jié)目可以自動生動字幕、正式會議可以自動形成記要、記者采訪的錄音可以自動成稿……人的一生中說的話要比我們寫過的字多的多,如果有一個軟件能記錄我們所說過的所有的話并進行高效的管理,這個世界將會多么的讓人難以置信。
  基于DFCNN的聲學建模技術(shù)
  語音識別的聲學建模主要用于建模語音信號與音素之間的關(guān)系,科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN,F(xiàn)eed-forward Sequential Memory Network)作為聲學建?蚣芎,今年再次推出全新的語音識別框架,即深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional NeuralNetwork)。
  目前最好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)(LSTM,LongShort Term Memory),這種網(wǎng)絡(luò)能夠?qū)φZ音的長時相關(guān)性進行建模,從而提高識別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓練復雜度高、解碼時延高的問題,尤其在工業(yè)界的實時識別系統(tǒng)中很難應用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向LSTM的缺陷。
  CNN早在2012年就被用于語音識別系統(tǒng),但始終沒有大的突破。主要的原因是其使用固定長度的幀拼接作為輸入,無法看到足夠長的語音上下文信息;另外一個缺陷將CNN視作一種特征提取器,因此所用的卷積層數(shù)很少,表達能力有限。
  針對這些問題,DFCNN使用大量的卷積層直接對整句語音信號進行建模。首先,在輸入端DFCNN直接將語譜圖作為輸入,相比其他以傳統(tǒng)語音特征作為輸入的語音識別框架相比具有天然的優(yōu)勢。其次,在模型結(jié)構(gòu)上,借鑒了圖像識別的網(wǎng)絡(luò)配置,每個卷積層使用小卷積核,并在多個卷積層之后再加上池化層,通過累積非常多的卷積池化層對,從而可以看到非常長的歷史和未來信息。這兩點保證了DFCNN可以出色的表達語音的長時相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色,同時可以實現(xiàn)短延時的準在線解碼,從而可用于工業(yè)系統(tǒng)中。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)
(DFCNN 結(jié)構(gòu)圖)
  口語化和篇章級語言模型處理技術(shù)
  語音識別的語言模型主要用于建模音素與字詞之間的對應關(guān)系。由于人類的口語為無組織性的自然語言,人們在自由對話時,通常會出現(xiàn)猶豫、回讀、語氣詞等復雜的語言現(xiàn)象,而以文字形式存在的語料通常為書面語,這兩種之間的鴻溝使得針對口語語言的語言模型建模面臨極大的挑戰(zhàn)。
  科大訊飛借鑒了語音識別處理噪聲問題采用加噪訓練的思想,即在書面語的基礎(chǔ)上自動引入回讀、倒裝、語氣詞等口語“噪聲”現(xiàn)象,從而可自動生成海量口語語料,解決口語和書面語之間的不匹配問題。首先,收集部分口語文本和書面文本語料對;其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語文本與口語文本之間的對應關(guān)系,從而實現(xiàn)了口語文本的自動生成。
  另外,上下文信息可以較大程度幫助人類對語言的理解,對于機器轉(zhuǎn)錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級語言模型的方案,該方案根據(jù)語音識別的解碼結(jié)果自動進行關(guān)鍵信息抽取,實時進行語料搜索和后處理,用解碼結(jié)果和搜索到的語料形成特定語音相關(guān)的語言模型,從而進一步提高語音轉(zhuǎn)寫的準確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)
  (篇章級語言模型流程圖)
  噪聲和遠場識別技術(shù)
  語音識別的應用遠場拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會議的場景下,如果使用錄音筆進行錄音,離錄音筆較遠說話人的語音即為遠場帶混響語音,由于混響會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應,從而嚴重影響語音識別效果;同樣,如果錄音環(huán)境中存在背景噪聲,語音頻譜會被污染,其識別效果也會急劇下降?拼笥嶏w針對該問題使用了單麥克及配合麥克風陣列兩種硬件環(huán)境下的降噪、解混響技術(shù),使得遠場、噪聲情況下的語音轉(zhuǎn)寫也達到了實用門檻。
  單麥克降噪、解混響
  對采集到的有損失語音,使用混合訓練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對干凈的語音進行加噪,并與干凈語音一起進行混合訓練,從而提高模型對于帶噪語音的魯棒性(編者注:Robust的音譯,即健壯和強壯之意);另一方面,使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進行降噪和解混響,進一步提高帶噪、遠場語音的識別正確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)
  麥克風陣列降噪、解混響
  僅僅考慮在語音處理過程中的噪音可以說是治標不治本,如何從源頭上解決混響和降噪似乎才是問題的關(guān)鍵。面對這一難題,科大訊飛研發(fā)人員通過在錄音設(shè)備上加上多麥克陣列,利用多麥克陣列進行降噪與解混響。具體地,使用多個麥克風采集多路時頻信號,利用卷積神經(jīng)網(wǎng)絡(luò)學習波束形成,從而在目標信號的方向形成一個拾音波束,并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合,可以進一步顯著的提高帶噪、遠場語音的識別正確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語音轉(zhuǎn)寫技術(shù)
  文本處理實時糾錯+文字后處理
  前面所說的都只是對于語音的處理技術(shù),即將錄音轉(zhuǎn)錄成文字,但正如上文所述人類的口語為無組織性的自然語言,即使在語音轉(zhuǎn)寫正確率非常高的情況下,語音轉(zhuǎn)寫文本的可閱讀性仍存在較大的問題,所以文本后處理的重要性就體現(xiàn)了出來。所謂文本后處理即對口語化的文本進行分句、分段,并對文本內(nèi)容的流利性進行處理,甚至進行內(nèi)容的摘要,以利于更好的閱讀與編輯。
  后處理Ⅰ:分句與分段
  分句,即對轉(zhuǎn)寫文本按語義進行子句劃分,并在子句之間加注標點;分段,即將一篇文本切分成若干個語義段落,每個段落描述的子主題各不相同。
  通過提取上下文相關(guān)的語義特征,同時結(jié)合語音特征,來進行子句與段落的劃分;考慮到有標注的語音數(shù)據(jù)較難獲得,在實際運用中科大訊飛利用兩級級聯(lián)雙向長短時記憶網(wǎng)絡(luò)建模技術(shù),從而較好的解決了分句與分段問題。
  后處理Ⅱ:內(nèi)容順滑
  內(nèi)容順滑,又稱為不流暢檢測,即剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語氣詞、重復詞,使順滑后的文本更易于閱讀。
  科大訊飛通過使用泛化特征并結(jié)合雙向長短時記憶網(wǎng)絡(luò)建模技術(shù),使得內(nèi)容順滑的準確率達到了實用階段。

專題