首頁
>>>
技術
>>>
語音應用
>>>
語音識別(ASR)
語音識別產品
智能識別領域的新三國演義
周速華 2003/03/31
微軟之傷
盡管在平臺軟件方面取得了壟斷性地位,但是微軟的創(chuàng)始人、現(xiàn)任微軟董事長兼首席軟件設計師比爾.蓋茨卻并不滿足,因為他有一個夢想-Natural Computing(指用戶可以用最自然的方法進行操作的電腦環(huán)境)。
為了這個目標,微軟已經努力了很久。幾年前微軟推出了“Windows for Pen Computing”, 但在經歷過多次嘗試后以失敗告終;兩年前,微軟又提出了“Tablet PC”的概念;不久前,微軟聯(lián)合幾大知名硬件廠商推出了實質性的產品。如此種種,足以表明已在操作系統(tǒng)領域處于領導地位的微軟正朝Natural Computing步步逼近。
在此過程中,困擾微軟最大的問題是自然語言的識別技術,包括文字輸入、語音輸入等技術。在智能識別技術上,微軟并不占據領先地位。目前在語音輸入和中文手寫輸入占據領導地位的分別是IBM和中國的漢王公司,微軟要想搶占智能輸入的制高點就必須向這兩家公司發(fā)起挑戰(zhàn)。
智能輸入和識別的未來
智能識別到底有何魅力,使得計算機軟件領域的首席代表如此尷尬不已?
人與計算機的交互一直是困擾廠商和用戶的一個難題。隨著技術的不斷發(fā)展,人機交互日臻完美已經不再停留在各種構想的可行性討論階段,結合計算機系統(tǒng)和生物系統(tǒng),人們構想的各種交互方式已經成為可能。
試想一下,當我們手中的鋼筆成為最常用的輸入設備,成為替代軟盤的存儲介質時,你有什么樣的感慨?生活真的可以如此方便簡單,它可以比傳統(tǒng)臺式和筆記本計算機更迅速快捷地記錄下我們思維中瞬間的閃光點。
盡管人機交互的探討一直沒有定論,但是“語音加筆輸入”的輸入方式必是未來的人機界面的發(fā)展趨勢。隨著信息技術的發(fā)展,人們正在逐漸擺脫線纜和體積的束縛,對于任何需要交互的設備來說,信息輸入都是必不可少的,而語音和筆輸入無疑是最理想的輸入方式。
目前在智能終端設備上,手寫輸入已經全面普及。中高端掌上電腦基本上都具備了手寫輸入的功能;具備手寫輸入功能的智能手機也不斷面市,如索尼和愛立信聯(lián)合推出的P802手機,多普達推出的Pocket PC手機等都可成為見證。
而語音輸入在我們的日常家居中更為普遍。采用語音輸入的基于嵌入式操作系統(tǒng)的智能家居設備已經走出了實驗室;通過語音來控制家里的家電如燈光的亮度、空調的開關都已經成為可能。
智能輸入使我們忙碌的生活變得精彩和簡單,也給某些特殊的人群帶去福音。對于老年人而言,手寫輸入使得他們能夠親自體驗信息技術的便利;而對于殘疾人來說,語言和手寫輸入無疑便實現(xiàn)了其最大的價值。
IBM和漢王領跑
IBM在語音輸入方面的霸主地位不容否認,IBM在語音識別領域的研究也已有20多年的歷史,最近它又宣布將語音引擎放到Radhat的Linux中。在美國,IBM語音識別產品ViaVoice的銷量達到百萬套以上。IBM通過持續(xù)的研發(fā)在最近的兩三年已經取得了突破性的進展,識別率接近95%。IBM希望將語音識別將從簡單的聽寫,發(fā)展到更廣的應用領域,人們將可以做到與計算機的真正對話。
與此同時,IBM也致力于將語音識別技術應用到PDA等移動設備之中。由于通過鍵盤鼠標輸入不適用于移動計算環(huán)境,因而在移動計算領域,語音輸入具有極大的發(fā)展?jié)摿。但移動設備的資源通常比較有限,在這樣有限的空間內要集成語音識別技術有相當大的難度,而這也是語音技術應用的最大空間。另外,語音識別技術自身還存在許多技術難題需要解決,比如對方言的適應性、容易受外界環(huán)境的干擾等。
而在中文手寫輸入領域稱霸的則是一向不太愛拋頭露面的漢王科技,這家脫鉤于中國科學院自動化研究所國家文字識別中心的企業(yè),憑借近20年的技術積累,在技術以及市場上都已遙遙領先于其他競爭對手。
早在1985年,現(xiàn)任漢王科技總裁劉迎建就研發(fā)成功了“聯(lián)機手寫漢字識別在線裝置”,成為國內首創(chuàng)。劉迎建隨后向國家“863”計劃專家組提出的“樣本收集-方法研究-系統(tǒng)實現(xiàn)”三級研究開發(fā)線路,在業(yè)界第一個把樣本收集整理提到了重要地位,對促進我國手寫漢字識別的研究起到了極其重要的作用。如今,漢王科技的手寫識別系統(tǒng)已經發(fā)展到了第10版,其中的“行草王”及“大字符集”兩大識別核心的突破,使得漢王手寫識別產品不僅能識別一般的連筆字、繁體字、倒插筆順字,還能完全識別手寫行草體漢字,并且能識別國家GBK漢字標準字庫中的所有27000個漢字,使手寫輸入真正達到了輕松自如的境地,同時也進一步確定了漢王在同業(yè)中的領先地位。
據悉,在目前的手寫輸入產品市場,漢王的市場占有率已經達到了75%。不管是商務通、聯(lián)想、名人等知名品牌的掌上電腦,還是基于Palm OS或者基于Pocket PC的其他一些掌上電腦設備,目前使用的都是漢王公司的手寫識別技術。聯(lián)想、金長城、金恒生等國內許多知名品牌的電腦,以及大部分集成了手寫輸入功能的手機使用的也都是漢王的手寫技術。正是因為在核心技術上的領先地位以及應用上的巨大成就,漢王手寫識別技術還獲得了2001年度的國家最高科技獎項--國家科技進步一等獎。
IBM已經將語音輸入擴展到了Linux、手機操作系統(tǒng)上,而漢王也將手寫輸入擴展到了掌上電腦、電話機、手機上。2002年底,漢王科技進一步明確了“做核心、做應用、做擴散”的發(fā)展思路。
微軟的努力
微軟顯然看到了智能識別技術這一發(fā)展趨勢,而IBM和漢王顯然不會放棄領先優(yōu)勢。習慣了領者風范的微軟,絕對忍受不了與IBM和漢王各分一杯羹,可以預見,一場關于智能輸入的爭奪戰(zhàn)即將拉開序幕。
由于自身缺乏核心技術的優(yōu)勢,因此在智能輸入上微軟還只能通過聯(lián)盟的方式進行運作。早在1998年,微軟的Windows CE中文版使用的就是漢王的手寫技術,2001年6月,微軟推出的Pocket PC中文版再一次使用了漢王的手寫技術。前段時間,當大家都在批評Tablet PC的中文手寫識別不盡人意時,業(yè)界又傳出消息:微軟正在就Tablet PC的手寫輸入問題與漢王進行合作。
作為軟件行業(yè)的霸主微軟顯然明白核心技術的重要,但現(xiàn)在微軟不得不面對在智能識別技術上受制于人的現(xiàn)狀。為了改善這種情況,微軟將一切希望寄托于1998年成立的微軟亞洲研究院,其前身是微軟中國研究院,是微軟公司在海外開設的第二家基礎科研機構,也是亞洲地區(qū)唯一的基礎研究機構。
顯然,微軟對其亞洲研究院給予厚望。微軟亞洲研究院的使命就是使未來的計算機能夠看、聽、學,能用自然語言與人類進行交流。目前在進行智能識別技術研發(fā)的有多通道用戶界面組、語音技術組和自然語言組在各自領域進行探索。
微軟當然會利用其在PC操作系統(tǒng)方面的優(yōu)勢,今后在微軟的Windows和Office兩大主力產品中都會加入對手寫和語音輸入的支持。微軟曾經考慮過在Windows中加入對手寫輸入的支持,由于礙于和漢王的合作關系最終沒有得逞,但是一旦微軟啟動這一計劃,打擊也將是毀滅性的,Netscape失敗的例子已經證明了微軟的威力。
微軟野心勃勃,IBM希望締造一個全方位的語音平臺,漢王的目標是做中文非鍵盤輸入的領導者,三者誰也不會示弱, IBM、微軟、漢王之間這場關于語音輸入和中文手寫輸入的斗爭最后鹿死誰手尚難預料。
eNet硅谷動力(cio.enet.com.cn)
相關鏈接:
清華大學計算機應用專業(yè)博士鄭方聊天實錄
2003-03-14
中文語音語言處理技術與中國無線互聯(lián)
2003-03-14
結合ASR系統(tǒng)有聲有色
2003-03-11
語音技術帶來呼叫中心用戶體驗的變革
2003-03-11
也談語音識別技術在玩具領域的低成本應用
2003-01-06
分類信息:
文摘
技術_語音識別_文摘