天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

您當前的位置是:  首頁 > 新聞 > 國際 >
 首頁 > 新聞 > 國際 >

微軟語音識別技術再突破!識別能力超越專業(yè)聽打記錄員

2017-08-23 11:25:05   作者:   來源:iThome   評論:0  點擊:


微軟語音識別技術再突破!識別能力超越專業(yè)聽打記錄員
  繼去年微軟宣布,自行開發(fā)的語音識別技術可以達到與人類相當的水準后,近日又宣布,該語音識別技術的準確度,已經正式超越人類,并發(fā)布了詳細的技術報告。
  微軟語音和對話研究團隊在去年10月宣布,運用業(yè)界常用的電話錄音測試集Switchboard,微軟語音識別技術錯誤率為5.9%,辨識能力可以達到人類的水準,近日則宣布,該語音識別技術的錯誤率已經降至5.1%,正式超越專業(yè)的聽打記錄人員。
  語音識別準確度超越人類,是微軟過去25年,一直想要達成的目標,微軟所采用的電話對話錄音測試集Switchboard,是語音研究社群采用了超過20年的測試語音識別系統(tǒng)標準,開發(fā)語音識別系統(tǒng)的過程,城程式需要自動記錄不同人講不同議題的對話,像是體育或是政治等。
  與去年發(fā)布的正確率相比,微軟用一系列的工具來改善類神經網路聲學和語言模型,將此系統(tǒng)的錯誤率講低,像是,增加了一項結合卷積式網路和雙向的長短期記憶演算法的CNN-BLSTM,雙向的長短期記憶演算法是一種時間遞歸神經網絡(RNN),來改善聲學模型。
  此外,微軟還透過聲音的辨識單元Senone、Frame,以及單詞,結合多個聲學模型的預測,作為語音識別的方法,并利用過去歷史對話紀錄,增強語音識別的語言模型,來預測對話接下來會講的字詞,如此一來,可以模型更能夠有效地判斷對話的主題和內容。
  這項語音識別是仰賴微軟自家的深度學習框架CNTK2.1版,并利用微軟的云端計算的基礎架構,特別是Azure GPUs,大幅地提升訓練模型的效率,也能快速地測試新設計的演算法。
  微軟表示,雖然系統(tǒng)辨識Switchboard的錯誤率已經達到只有5.1%,是一個非常大的突破,不過,未來還有許多可以繼續(xù)鉆研的問題,像是如何讓機器像人一樣,在吵雜的環(huán)境下,辨識出有腔調的語音、不同風格的說話方式和語言。
  微軟希望可以這項研究結果應用在微軟自家的產品和服務上,像是語音個人助理Cortana和認知服務等。未來,不只讓機器記錄語音內容,還要能理解對話的意思和意圖,從語音識別到理解語意,是微軟接下來主要發(fā)展的語音科技目標。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題