(譯為《基于FLAT的多音字消歧系統(tǒng)》,以下簡稱“論文”)受到國際學(xué)者專業(yè)認可,成功收錄其中。據(jù)了解,這也是繼2019和2020兩屆大會入選后,標(biāo)貝語音論文第三次被大會成功收錄,彰顯不俗的語音科研實力。

一年一度的INTERSPEECH是全球最具影響力的語音行業(yè)大會,而語音論文彰顯大會國際化、專業(yè)化、前沿化的特點,吸引全球數(shù)以千計的科研機構(gòu)、高校及廠商關(guān)注,踴躍參與論文撰寫和投遞,共同見證行業(yè)蓬勃發(fā)展。
本次標(biāo)貝科技投遞的“論文”,研究重點為在多音字消歧的系統(tǒng)中引入了FLAT的模型結(jié)構(gòu)。經(jīng)過研究表明,在建模過程中,句子中多音字字符可以有效與所有的匹配詞匯進行交互,緩解了TTS系統(tǒng)在合成語音時,因分詞錯誤導(dǎo)致的多音字發(fā)音錯誤的問題。此外,該模型還引入了中文發(fā)音詞典的信息,賦予帶多音字字符的詞匯中目標(biāo)多音字的正確發(fā)音,由此降低了多音字消歧系統(tǒng)的建模難度以及提升了多音字消歧系統(tǒng)的預(yù)測準(zhǔn)確率。該模型還引入了中文預(yù)訓(xùn)練語言模型,通過使用了動態(tài)詞向量,加強了句子中字符的表征能力,進一步提升了模型性能。

取得以上成績,與標(biāo)貝專業(yè)、先進的研發(fā)技術(shù)整體綜合實力密不可分。標(biāo)貝科技自成立以來,把AI技術(shù)創(chuàng)新應(yīng)用放在首位,以“語音連接場景、數(shù)據(jù)服務(wù)技術(shù)”為理念,在技術(shù)、數(shù)據(jù)及應(yīng)用三端不斷創(chuàng)新,確保在語音和數(shù)據(jù)領(lǐng)域的領(lǐng)先地位。
在語音合成方面,標(biāo)貝科技語音技術(shù)路徑經(jīng)歷重要的三個階段,無論是在場景落地還是技術(shù)演化方面,均有巨大突破。
1.0階段注意力機制深度學(xué)習(xí)首次商用
為了提高語音合成的自然流暢度,標(biāo)貝科技的語音合成技術(shù)在聲學(xué)、韻律上采用了基于Attention機制的深度神經(jīng)網(wǎng)絡(luò)技術(shù)模型,充分利用文本數(shù)據(jù),構(gòu)建前端模塊、選擇合適的聲碼器,降低運算量,實現(xiàn)合成語音的發(fā)音自然、清晰、韻律感流暢,讓機器與人的互動顯得更親近。
2.0階段音色擴展個性化合成
為了滿足不同場景的需求,標(biāo)貝科技在音色和場景豐富度上持續(xù)發(fā)力;诤A空Z音數(shù)據(jù)的優(yōu)勢,對音色庫進行充分擴充,推出支持不同年齡、性別、以及語種的多類型音色的TTS2.0解決方案,并支持用戶個性化需求定制,滿足了多場景及多業(yè)務(wù)的需求。
語音技術(shù)方面,標(biāo)貝打造了支持聲音復(fù)刻、情感合成等個性化、差異化的語音技術(shù)服務(wù)。聲音復(fù)刻與情感合成是基于語音技術(shù)本身的創(chuàng)新型應(yīng)用。通過復(fù)刻聲音,為聲音注入豐富的情感,深度挖掘合成語音的個性化、定制化價值,更好的匹配有聲閱讀、AI教育等應(yīng)用場景。
3.0階段深度學(xué)習(xí)框架升級,更有表現(xiàn)力更自然的聲音
2021年開年,標(biāo)貝推出了全新升級的TTS3.0技術(shù)采用全新的Transformer機制和GAN聲碼器,升級了全新的模型結(jié)構(gòu)的基礎(chǔ)上,依舊保持了對tts2.0舊模型的全部兼容,最大程度地保證無縫升級。同時,新系統(tǒng)使用了高維度的聲學(xué)信息,可以承載更多的聲音細節(jié),顯著提升了現(xiàn)有發(fā)音效果。無論是自然講話、情緒講話、還是角色模仿,都大大提升了多場景下角色和情感表達判斷的精確性,同時保障了輸出音質(zhì)的穩(wěn)定、清晰、順暢,聲碼器采用GAN結(jié)構(gòu),不但高效且真實的還原了波形,同時為合成聲音注入了真實質(zhì)感。
在場景方面,標(biāo)貝科技基于技術(shù)優(yōu)勢的基礎(chǔ)上,打造能夠覆蓋多場景應(yīng)用的語音交互方案,包括語音合成、語音識別、聲音復(fù)刻、情感合成以及聲音轉(zhuǎn)換在內(nèi)的語音技術(shù)產(chǎn)品,以有溫度的聲音,提升用戶交互體驗。
值得一提的是,數(shù)據(jù)為AI應(yīng)用落地提供堅實基礎(chǔ)。而標(biāo)貝科技致力于為企業(yè)提供專業(yè)、高質(zhì)量的語音數(shù)據(jù)服務(wù)。
在采標(biāo)能力上,標(biāo)貝科技基于深度學(xué)習(xí)以及高精度預(yù)處理技術(shù),擁有多語言多類型數(shù)據(jù)采集制作能力、語音合成技術(shù)建模和測試需要的深度標(biāo)注加工和分析處理等數(shù)據(jù)服務(wù)。
其中,數(shù)據(jù)采集方面,標(biāo)貝科技可根據(jù)客戶定制化需求,對各類規(guī)定文本、指定圖片,各種環(huán)境下的語音、視頻進行采集;采集過程中可實現(xiàn)對其內(nèi)容的篩選、文本化等相關(guān)任務(wù)。
而數(shù)據(jù)標(biāo)注方面,在語音方面,支持ASR語音轉(zhuǎn)寫、音素標(biāo)注、語音清洗、聲紋識別標(biāo)注、語音切割、情緒判定等;在自然語言處理方面,支持OCR轉(zhuǎn)寫、文本信息抽取、文本富集、詞性標(biāo)注、槽位提取等;在計算機視覺方面,支持圖片清洗分類、關(guān)鍵點標(biāo)注、3D點云標(biāo)注、圖像語義分割、目標(biāo)跟蹤等。
隨著技術(shù)不斷進步,將會有越來越多的語音技術(shù)產(chǎn)品出現(xiàn)在人們生活和工作之中。未來,標(biāo)貝科技將加大研發(fā)投入力度,與學(xué)術(shù)界和工業(yè)界保持緊密合作,攜手共同推動語音產(chǎn)業(yè)的發(fā)展。