天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

INTERSPEECH2021喜訊 | 標(biāo)貝科技語(yǔ)音論文連續(xù)3屆收錄于全頂語(yǔ)音大會(huì)

2021-06-08 17:18:26 作者：來源：CTI論壇評(píng)論：0 　點(diǎn)擊：

　　6月8日消息，2021全球頂級(jí)語(yǔ)音大會(huì)INTERSPEECH論文投稿收錄結(jié)果于日前重磅揭曉。標(biāo)貝科技語(yǔ)音技術(shù)團(tuán)隊(duì)投遞的語(yǔ)音論文《PDF：Polyphone Disambiguation by Using FLAT》

　�。ㄗg為《基于FLAT的多音字消歧系統(tǒng)》，以下簡(jiǎn)稱“論文”）受到國(guó)際學(xué)者專業(yè)認(rèn)可，成功收錄其中。據(jù)了解，這也是繼2019和2020兩屆大會(huì)入選后，標(biāo)貝語(yǔ)音論文第三次被大會(huì)成功收錄，彰顯不俗的語(yǔ)音科研實(shí)力。

　　一年一度的INTERSPEECH是全球最具影響力的語(yǔ)音行業(yè)大會(huì)，而語(yǔ)音論文彰顯大會(huì)國(guó)際化、專業(yè)化、前沿化的特點(diǎn)，吸引全球數(shù)以千計(jì)的科研機(jī)構(gòu)、高校及廠商關(guān)注，踴躍參與論文撰寫和投遞，共同見證行業(yè)蓬勃發(fā)展。

　　本次標(biāo)貝科技投遞的“論文”，研究重點(diǎn)為在多音字消歧的系統(tǒng)中引入了FLAT的模型結(jié)構(gòu)。經(jīng)過研究表明，在建模過程中，句子中多音字字符可以有效與所有的匹配詞匯進(jìn)行交互，緩解了TTS系統(tǒng)在合成語(yǔ)音時(shí)，因分詞錯(cuò)誤導(dǎo)致的多音字發(fā)音錯(cuò)誤的問題。此外，該模型還引入了中文發(fā)音詞典的信息，賦予帶多音字字符的詞匯中目標(biāo)多音字的正確發(fā)音，由此降低了多音字消歧系統(tǒng)的建模難度以及提升了多音字消歧系統(tǒng)的預(yù)測(cè)準(zhǔn)確率。該模型還引入了中文預(yù)訓(xùn)練語(yǔ)言模型，通過使用了動(dòng)態(tài)詞向量，加強(qiáng)了句子中字符的表征能力，進(jìn)一步提升了模型性能。

　　取得以上成績(jī)，與標(biāo)貝專業(yè)、先進(jìn)的研發(fā)技術(shù)整體綜合實(shí)力密不可分。標(biāo)貝科技自成立以來，把AI技術(shù)創(chuàng)新應(yīng)用放在首位，以“語(yǔ)音連接場(chǎng)景、數(shù)據(jù)服務(wù)技術(shù)”為理念，在技術(shù)、數(shù)據(jù)及應(yīng)用三端不斷創(chuàng)新，確保在語(yǔ)音和數(shù)據(jù)領(lǐng)域的領(lǐng)先地位。

　　在語(yǔ)音合成方面，標(biāo)貝科技語(yǔ)音技術(shù)路徑經(jīng)歷重要的三個(gè)階段，無(wú)論是在場(chǎng)景落地還是技術(shù)演化方面，均有巨大突破。

　　1.0階段注意力機(jī)制深度學(xué)習(xí)首次商用

　　為了提高語(yǔ)音合成的自然流暢度，標(biāo)貝科技的語(yǔ)音合成技術(shù)在聲學(xué)、韻律上采用了基于Attention機(jī)制的深度神經(jīng)網(wǎng)絡(luò)技術(shù)模型，充分利用文本數(shù)據(jù)，構(gòu)建前端模塊、選擇合適的聲碼器，降低運(yùn)算量，實(shí)現(xiàn)合成語(yǔ)音的發(fā)音自然、清晰、韻律感流暢，讓機(jī)器與人的互動(dòng)顯得更親近。

　　2.0階段音色擴(kuò)展個(gè)性化合成

　　為了滿足不同場(chǎng)景的需求，標(biāo)貝科技在音色和場(chǎng)景豐富度上持續(xù)發(fā)力�；诤Ａ空Z(yǔ)音數(shù)據(jù)的優(yōu)勢(shì)，對(duì)音色庫(kù)進(jìn)行充分?jǐn)U充，推出支持不同年齡、性別、以及語(yǔ)種的多類型音色的TTS2.0解決方案，并支持用戶個(gè)性化需求定制，滿足了多場(chǎng)景及多業(yè)務(wù)的需求。

　　語(yǔ)音技術(shù)方面，標(biāo)貝打造了支持聲音復(fù)刻、情感合成等個(gè)性化、差異化的語(yǔ)音技術(shù)服務(wù)。聲音復(fù)刻與情感合成是基于語(yǔ)音技術(shù)本身的創(chuàng)新型應(yīng)用。通過復(fù)刻聲音，為聲音注入豐富的情感，深度挖掘合成語(yǔ)音的個(gè)性化、定制化價(jià)值，更好的匹配有聲閱讀、AI教育等應(yīng)用場(chǎng)景。

　　3.0階段深度學(xué)習(xí)框架升級(jí)，更有表現(xiàn)力更自然的聲音

　　2021年開年，標(biāo)貝推出了全新升級(jí)的TTS3.0技術(shù)采用全新的Transformer機(jī)制和GAN聲碼器，升級(jí)了全新的模型結(jié)構(gòu)的基礎(chǔ)上，依舊保持了對(duì)tts2.0舊模型的全部兼容，最大程度地保證無(wú)縫升級(jí)。同時(shí)，新系統(tǒng)使用了高維度的聲學(xué)信息，可以承載更多的聲音細(xì)節(jié)，顯著提升了現(xiàn)有發(fā)音效果。無(wú)論是自然講話、情緒講話、還是角色模仿，都大大提升了多場(chǎng)景下角色和情感表達(dá)判斷的精確性，同時(shí)保障了輸出音質(zhì)的穩(wěn)定、清晰、順暢，聲碼器采用GAN結(jié)構(gòu)，不但高效且真實(shí)的還原了波形，同時(shí)為合成聲音注入了真實(shí)質(zhì)感。

　　在場(chǎng)景方面，標(biāo)貝科技基于技術(shù)優(yōu)勢(shì)的基礎(chǔ)上，打造能夠覆蓋多場(chǎng)景應(yīng)用的語(yǔ)音交互方案，包括語(yǔ)音合成、語(yǔ)音識(shí)別、聲音復(fù)刻、情感合成以及聲音轉(zhuǎn)換在內(nèi)的語(yǔ)音技術(shù)產(chǎn)品，以有溫度的聲音，提升用戶交互體驗(yàn)。

　　值得一提的是，數(shù)據(jù)為AI應(yīng)用落地提供堅(jiān)實(shí)基礎(chǔ)。而標(biāo)貝科技致力于為企業(yè)提供專業(yè)、高質(zhì)量的語(yǔ)音數(shù)據(jù)服務(wù)。

　　在采標(biāo)能力上，標(biāo)貝科技基于深度學(xué)習(xí)以及高精度預(yù)處理技術(shù)，擁有多語(yǔ)言多類型數(shù)據(jù)采集制作能力、語(yǔ)音合成技術(shù)建模和測(cè)試需要的深度標(biāo)注加工和分析處理等數(shù)據(jù)服務(wù)。

　　其中，數(shù)據(jù)采集方面，標(biāo)貝科技可根據(jù)客戶定制化需求，對(duì)各類規(guī)定文本、指定圖片，各種環(huán)境下的語(yǔ)音、視頻進(jìn)行采集；采集過程中可實(shí)現(xiàn)對(duì)其內(nèi)容的篩選、文本化等相關(guān)任務(wù)。

　　而數(shù)據(jù)標(biāo)注方面，在語(yǔ)音方面，支持ASR語(yǔ)音轉(zhuǎn)寫、音素標(biāo)注、語(yǔ)音清洗、聲紋識(shí)別標(biāo)注、語(yǔ)音切割、情緒判定等；在自然語(yǔ)言處理方面，支持OCR轉(zhuǎn)寫、文本信息抽取、文本富集、詞性標(biāo)注、槽位提取等；在計(jì)算機(jī)視覺方面，支持圖片清洗分類、關(guān)鍵點(diǎn)標(biāo)注、3D點(diǎn)云標(biāo)注、圖像語(yǔ)義分割、目標(biāo)跟蹤等。

　　隨著技術(shù)不斷進(jìn)步，將會(huì)有越來越多的語(yǔ)音技術(shù)產(chǎn)品出現(xiàn)在人們生活和工作之中。未來，標(biāo)貝科技將加大研發(fā)投入力度，與學(xué)術(shù)界和工業(yè)界保持緊密合作，攜手共同推動(dòng)語(yǔ)音產(chǎn)業(yè)的發(fā)展。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：標(biāo)貝語(yǔ)音

上一篇:勒索事件頻發(fā)，OT安全何以為戰(zhàn)？

下一篇:最后一頁(yè)

相關(guān)閱讀：