“早上7點(diǎn)15的時(shí)候叫醒我”;如果你還想再睡會(huì),就說“40分鐘后叫醒我”。只要你準(zhǔn)確的回答時(shí)間,iPhone的Siri就會(huì)非常準(zhǔn)時(shí)的叫醒你。
隨著siri被引入iPhone 4S中,智能語(yǔ)音技術(shù)已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)界最關(guān)注的焦點(diǎn)之一。“這種智能語(yǔ)音技術(shù)區(qū)別于傳統(tǒng)的人機(jī)對(duì)話,新型人機(jī)對(duì)話技術(shù)就是讓機(jī)器從”能聽會(huì)說“變成”會(huì)聽能做“,即聽得懂說的,懂得聽什么,聽不清楚了能問,最后能完成用戶的任務(wù)。”上海交大計(jì)算機(jī)科學(xué)與工程系研究員俞凱介紹說。
俞凱博士擁有劍橋大學(xué)語(yǔ)音識(shí)別專業(yè)的學(xué)術(shù)背景,也是國(guó)內(nèi)學(xué)術(shù)界“青年千人計(jì)劃”里唯一一位來自語(yǔ)音技術(shù)行業(yè)領(lǐng)域的語(yǔ)音專家,他曾經(jīng)多次獲得美國(guó)國(guó)家標(biāo)準(zhǔn)局和美國(guó)國(guó)防部語(yǔ)音識(shí)別評(píng)測(cè)冠軍。在劍橋大學(xué)期間,他成為研究組歷史上與三位語(yǔ)音教授都合作過的第一人,其中最知名的研究合作者便是國(guó)際語(yǔ)音界的權(quán)威人物史蒂夫·楊;貒(guó)后,他在上海交通大學(xué)組建智能語(yǔ)音實(shí)驗(yàn)室。
語(yǔ)音識(shí)別達(dá)不到百分之百的準(zhǔn)確,在有不確定性的情況下,機(jī)器仍可與人進(jìn)行對(duì)話;谶@個(gè)研究思路,俞凱正式開啟了新的智能語(yǔ)音技術(shù)研究之路。從開始做語(yǔ)音合成和對(duì)話管理,到開發(fā)整個(gè)對(duì)話系統(tǒng)的架構(gòu),他成為了國(guó)內(nèi)智能語(yǔ)音技術(shù)領(lǐng)域研究覆蓋面較廣的學(xué)者。
在劍橋大學(xué)期間,俞凱參與研發(fā)了“認(rèn)知型的對(duì)話系統(tǒng)”,作為這個(gè)系統(tǒng)直接的設(shè)計(jì)和實(shí)現(xiàn)的負(fù)責(zé)人,他說,這個(gè)對(duì)話系統(tǒng)就是基于不確定性存在的情況下進(jìn)一步理解,它和正常的對(duì)話系統(tǒng)沒什么區(qū)別,就像人和人聊天一樣,但是它能更好的和人聊天。這也是全球首個(gè)能夠在真實(shí)世界的任務(wù)中運(yùn)行的對(duì)話系統(tǒng)。
“理論要和工程結(jié)合,工程要和產(chǎn)業(yè)結(jié)合。我不認(rèn)為自己是個(gè)科學(xué)家,更多的算個(gè)喜歡鉆研理論的工程師吧”。俞凱說。
他強(qiáng)調(diào)智能語(yǔ)音技術(shù)研究對(duì)工程性和實(shí)踐性要求高。語(yǔ)音研究和其他研究有一個(gè)最大的不同—工程和理論結(jié)合特別緊密。這是因?yàn)橄到y(tǒng)的搭建需要幾千甚至上萬(wàn)個(gè)小時(shí)的語(yǔ)料,系統(tǒng)的運(yùn)行也需要讓數(shù)百萬(wàn),數(shù)千萬(wàn)人檢驗(yàn)?zāi)芊窨尚。這也是工程為什么需要融入產(chǎn)業(yè)。
“我的愿望是所做的技術(shù)能夠被千千萬(wàn)萬(wàn)的人實(shí)際使用。”他介紹,目前在國(guó)內(nèi)語(yǔ)音合成和識(shí)別產(chǎn)業(yè)化的著名企業(yè)是科大訊飛,人機(jī)對(duì)話的探索則以蘇州思必馳為先。思必馳發(fā)布了國(guó)內(nèi)第一個(gè)對(duì)話平臺(tái)—對(duì)話工場(chǎng)。
加載了“對(duì)話工場(chǎng)”技術(shù)的智能設(shè)備相當(dāng)于裝上一個(gè)“人腦”,集“聽”“說”“理解”“對(duì)話”“感官”的5組對(duì)話能力。開發(fā)者可以免費(fèi)借助對(duì)話工場(chǎng)實(shí)現(xiàn)語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)義理解、智能對(duì)話,聲紋識(shí)別等諸多功能,可以應(yīng)用于電子商務(wù),手機(jī)游戲,生活信息服務(wù),車載導(dǎo)航,智能助手等移動(dòng)生活的方方面面。像聯(lián)想、蘇州電信、同程網(wǎng)、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語(yǔ)音技術(shù)解決方案。
在移動(dòng)互聯(lián)網(wǎng)的使用上,把識(shí)別、語(yǔ)義理解和人機(jī)對(duì)話連在一起,幫助用戶完成任務(wù)?赡茉谖磥砟軌蚴且粋(gè)新的、劃時(shí)代性的變革。他說,假設(shè)移動(dòng)互聯(lián)設(shè)備沒有屏幕,通過交互式的語(yǔ)音對(duì)話,系統(tǒng)仍能完成任務(wù)。對(duì)話式的交互可能是未來在移動(dòng)互聯(lián)網(wǎng)時(shí)代人機(jī)交互的一種常規(guī)的形式。“我希望通過語(yǔ)音讓這個(gè)常規(guī)的形式有理論依據(jù),能做到國(guó)內(nèi)最好,甚至全世界最好,這算是一個(gè)不大不小的夢(mèng)想吧。”