科大訊飛再推新版語音合成系統(tǒng),支持Unix和Linux操作系統(tǒng)
2004/09/20
科大訊飛早在2003年上半年就率先推出了基于Unix和Linux兩個操作環(huán)境下的語音合成系統(tǒng),填補了國內(nèi)語音技術在這方面的技術空白。近期,科大訊飛又在此基礎上開發(fā)出了基于最新語音合成產(chǎn)品Intephonic3.0的Unix和Linux版本,兩個版本在上月同時發(fā)布。
語音合成技術(即Text To Speech)能夠自動將任意文字信息實時轉換為連續(xù)的語音,是一種能夠在任何時間、任何地點向任何人提供語音信息服務的高效便捷手段,非常符合信息時代海量數(shù)據(jù)、動態(tài)更新和個性化查詢的需求。
面對不斷增長的市場需求,語音合成技術在近幾年不斷向縱深方向發(fā)展,中英文的合成效果可以跟真人發(fā)音相媲美,這種用合成系統(tǒng)自助服務的方式也已經(jīng)開始受到人們的歡迎。然而,國內(nèi)語音合成產(chǎn)品比較單一,其最明顯的一點便是不能支持Windows以外的操作系統(tǒng),這勢必造成某些領域在應用推廣時受到限制。同時,由于部分行業(yè)企業(yè)用戶出于實際應用環(huán)境的考慮,或者為了追求更高的系統(tǒng)穩(wěn)定性,而選擇了Unix和Linux這兩大操作系統(tǒng),因此,在不斷提高語音合成效果的同時,如何滿足眾多開發(fā)者對多樣化應用環(huán)境的需求,已經(jīng)成為至關重要的突破口了。
此次發(fā)布的unix和linux版繼續(xù)延伸了科大訊飛語音技術優(yōu)勢,覆蓋高端行業(yè)用戶需求的理念,在原有的2.0版本上增添了不少新特性:
多種音庫,滿足不同應用環(huán)境下的個性化需求:適應語音信息服務從簡單信息發(fā)布向綜合資訊及娛樂和互動體驗等多樣化應用擴展的趨勢,InterPhonic 3.0同時提供清脆甜美與平穩(wěn)正式兩種風格的語音選擇,支持在系統(tǒng)運行狀態(tài)下的自由風格切換,根據(jù)具體應用業(yè)務的需要,選擇最適合語音風格,使整個語音應用給用戶帶來更加自然貼切的感受。
背景音樂,快速便捷提升用戶體驗的高效手段:實際應用證明,在合成語音或提示音中適當添加背景音樂,可以有效改善用戶實際應用過程中的體驗,使語音服務更加的親切自然。InterPhonic 3.0實現(xiàn)了背景音樂與合成語音的自動融合。使用系統(tǒng)提供的工具,可以便捷高效的添加背景音樂,調整背景音樂和合成語音的音量對比,并可直接試聽實際效果。
預錄語音,一致化管理處理流暢銜接簡化應用:預錄語音與合成語音結合提供語音服務的應用中,通過InterPhonic 3.0d的預錄音的統(tǒng)一管理功能,將預錄音作為語音合成系統(tǒng)的資源,可以使預錄音與合成音銜接流暢,同時避免頻繁處理提示音播放與語音合成的切換與過渡問題,簡化應用流程的復雜程度,從而進一步提高服務效果與質量。
豐富工具,增強系統(tǒng)可用性縮短應用發(fā)布周期:在致力于語音合成核心引擎的縱深研發(fā)和持續(xù)發(fā)展的同時,科大訊飛不斷推出方便語音開發(fā)與應用的工具,旨在幫助合作伙伴和客戶快速提升語音應用的效果和效率。InterPhonic 3.0的增強工具包套件包括了使用便捷的高效組件,如CSSML可視化編輯工具、SysthART/SynthBAT/SynthDB離線語音應用工具、EasyCOM文件搬運工和ReadWORD/ReadEXCEL文本格式轉換工具等。
除上述特性和對Linxu和Unix操作系統(tǒng)的支持以外,新產(chǎn)品還整合提供多語言語音合成引擎,支持中文普通話、普通話與英語同音混讀、廣東話、英語(美式英語、英式英語)等多樣化語種的語音服務,不同語言的語音合成引擎通過一致化接口統(tǒng)一管理。
作為語音產(chǎn)業(yè)的領導者,保證核心效果提升的同時,科大訊飛不斷加大在多操作系統(tǒng)產(chǎn)品化方面的研究力度。經(jīng)過技術開發(fā)人員數(shù)月的不懈努力,目前已成功完成將最新的InterPhonic3.0中英文混讀語音合成系統(tǒng)到Unix和Linux操作系統(tǒng)上的移植,并且還進行了新應用環(huán)境下的大壓力、多線程的穩(wěn)定性和效率測試,完全達到滿足實際應用的需求。此次經(jīng)過移植的Unix和Linux版本語音合成不僅在合成效果上等同于同版本W(wǎng)indows產(chǎn)品,而且沿襲了以往的標準開發(fā)接口, 在產(chǎn)品特性和功能方面也做到了盡可能的統(tǒng)一。。同時,此次推出的interphonic 3.0 unix和linux版本對產(chǎn)品架構作了很大改進,大大縮短了產(chǎn)品開發(fā)的周期,并為今后的版本升級做好鋪墊。
至此,科大訊飛語音合成系統(tǒng)已經(jīng)實現(xiàn)了在Windows 2000/NT、Win CE、Linux和Unix等四種操作系統(tǒng)上的應用。在同行業(yè)中,率先使得在多種操作系統(tǒng)上的語音合成都能達到最優(yōu)的合成效果,其優(yōu)秀的語音合成效果已經(jīng)在海南、浙江、成都、上海等地的實際應用中得到驗證。
科大訊飛公司供稿 CTI論壇編輯
相關鏈接: