語(yǔ)音合成，是對(duì)話式人工智能的最后一環(huán)，也是關(guān)鍵一環(huán)，它的效果直接影響著人機(jī)語(yǔ)音交互的體驗(yàn)。思必馳作為國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司，它的語(yǔ)音合成技術(shù)表現(xiàn)究竟如何？

　　在開(kāi)始本篇文章前，我們先來(lái)考驗(yàn)一下大家的耳朵。請(qǐng)聆聽(tīng)下方兩段音頻，分辨一下哪段是真人錄音，哪段由思必馳語(yǔ)音合成？

音頻A

音頻B

　　A：語(yǔ)音合成 B：真人錄音

　　怎么樣，你選對(duì)了嗎？

　　1、語(yǔ)音合成的“前世今生”

　　語(yǔ)音合成（Text to Speech，TTS）又稱文本語(yǔ)音轉(zhuǎn)換技術(shù)，顧名思義，是把文本信息轉(zhuǎn)化成語(yǔ)音信息。人的語(yǔ)音，本質(zhì)上是發(fā)音器官震動(dòng)，產(chǎn)生聲波傳出。

人類發(fā)音示意圖

　　模仿人聲，最古老的方法是使用樂(lè)器。到19世紀(jì)，就可以用機(jī)械方法產(chǎn)生語(yǔ)音了。那時(shí)，科學(xué)家們會(huì)制作出一些精巧的氣囊和風(fēng)箱去搭建發(fā)聲系統(tǒng)，合成出一些元音和單音。

　　進(jìn)入電子時(shí)代的1939年，貝爾實(shí)驗(yàn)室H·杜德利制作出第一臺(tái)電子合成器，這是用共振峰原理制作的語(yǔ)音合成器，該技術(shù)使用固定頻率，以電子復(fù)制我們改變口型時(shí)所發(fā)出的元音聲，也這正是英國(guó)劍橋大學(xué)著名物理學(xué)家斯蒂芬·霍金教授所使用的聲音合成器。

　　上世紀(jì)90年代，隨著計(jì)算和存儲(chǔ)能力大幅度提升，基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成方法出現(xiàn)，可以合成出高質(zhì)量的自然人語(yǔ)音。

語(yǔ)音合成技術(shù)演變

　　進(jìn)入21世紀(jì)，隨著深度學(xué)習(xí)技術(shù)的興起和快速發(fā)展，以語(yǔ)音合成為代表的語(yǔ)音處理技術(shù)得到了極大的飛躍。神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成在近幾年來(lái)取得了顯著突破，合成音的音質(zhì)和自然度越來(lái)越高，運(yùn)行速度也越來(lái)越快。思必馳目前所使用的，也正是這種方法。

　　2、思必馳TTS，魅力何在？

　　早在2007年于英國(guó)劍橋大學(xué)創(chuàng)立時(shí)，思必馳關(guān)于語(yǔ)音合成技術(shù)研究就已開(kāi)啟，該項(xiàng)工作由思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授俞凱領(lǐng)頭。

　　語(yǔ)音合成系統(tǒng)主要分為文本處理、聲學(xué)模型、聲碼器三個(gè)部分。文本處理負(fù)責(zé)對(duì)文本進(jìn)行轉(zhuǎn)寫和phoneme序列轉(zhuǎn)換；聲學(xué)模型使用深度神經(jīng)網(wǎng)絡(luò)，可以在文本特征與聲學(xué)特征之間學(xué)習(xí)到更復(fù)雜的非線性關(guān)系；聲碼器負(fù)責(zé)將聲學(xué)模型輸出的聲學(xué)特征，通過(guò)卷積運(yùn)算，轉(zhuǎn)換成音頻。

　　經(jīng)過(guò)10多年的研究積累，思必馳在建模方法上，涵蓋了從傳統(tǒng)的統(tǒng)計(jì)參數(shù)模型到最新的基于神經(jīng)網(wǎng)絡(luò)的方法；對(duì)聲碼器的研究，涵蓋了從傳統(tǒng)的基于信號(hào)處理的方法到最新的基于神經(jīng)網(wǎng)絡(luò)的方法。

　　語(yǔ)音合成的質(zhì)量與效果，既有賴于語(yǔ)音廠商的算法模型，還取決于音頻語(yǔ)料的質(zhì)量，即數(shù)據(jù)質(zhì)量。思必馳有著豐富的聲優(yōu)資源以及聲優(yōu)挑選的經(jīng)驗(yàn)，在蘇州建設(shè)有專業(yè)錄音棚并與國(guó)內(nèi)多個(gè)城市的錄音棚有著長(zhǎng)久合作關(guān)系。與此同時(shí)，思必馳數(shù)據(jù)團(tuán)隊(duì)也對(duì)數(shù)據(jù)標(biāo)注有著嚴(yán)格的質(zhì)量把控。

位于思必馳蘇州總部的專業(yè)錄音棚

　　經(jīng)過(guò)多年的技術(shù)積累，思必馳已逐步形成了一套成熟的技術(shù)方案，業(yè)務(wù)涵蓋了大數(shù)據(jù)語(yǔ)音定制、小數(shù)據(jù)快速定制、聲音克隆、歌聲合成、小語(yǔ)種合成、方言合成、情感合成等，可選公有云、私有云以及離線三種部署方式，經(jīng)典音色可在思必馳官網(wǎng)實(shí)時(shí)體驗(yàn)。

　　2017年、2020年，思必馳還先后參與國(guó)家標(biāo)準(zhǔn)《中文語(yǔ)音合成互聯(lián)網(wǎng)服務(wù)接口規(guī)范》與行業(yè)標(biāo)準(zhǔn)《中文語(yǔ)音合成服務(wù)系統(tǒng)評(píng)估規(guī)范》的制定，并成為全國(guó)首批通過(guò)評(píng)估測(cè)評(píng)的公司之一，獲得“TTS-4S（Standard Similarity Scene System）服務(wù)證書”。該測(cè)評(píng)從合成質(zhì)量、定制能力、場(chǎng)景表現(xiàn)力和系統(tǒng)安全可靠等維度，全面評(píng)估合成水平和服務(wù)能力。

2019年11月，思必馳首批通過(guò)“中文語(yǔ)音合成水平測(cè)試”

　　3、未來(lái)世界，百“聲”爭(zhēng)鳴

　　為能快速提供語(yǔ)音合成定制服務(wù)，思必馳全程提供音色選擇、錄音指導(dǎo)、音頻處理、模型訓(xùn)練、服務(wù)部署等專業(yè)服務(wù)，賦予產(chǎn)品開(kāi)口講話的能力。

　　截至目前，思必馳語(yǔ)音合成已建設(shè)的音色庫(kù)內(nèi)包含音色接近200個(gè)，涵蓋多種角色、多種風(fēng)格，以及各個(gè)年齡層次。

一禪小和尚

精品女聲

精品男聲

　　思必馳語(yǔ)音合成服務(wù)，也已在車載、白電、機(jī)器人、智能客服等諸多領(lǐng)域成功落地，為眾多終端產(chǎn)品賦予聲的魅力，使得萬(wàn)物皆可溝通，并逐漸走入人們的工作與生活。

　　當(dāng)你在家里“躺平”，來(lái)自如影智能的語(yǔ)音管家“Edison”，用他溫暖、紳士的聲音（文章開(kāi)頭的音頻A），為你帶來(lái)踏實(shí)與慰藉；當(dāng)你在愛(ài)車中馳騁，車蘿卜的語(yǔ)音助理“蘿卜”清脆、簡(jiǎn)明的聲音，如同車水馬龍路途中的一股清流；當(dāng)你接起順豐95338服務(wù)熱線的外呼電話，智能客服“豐小蜜”親切又不失嚴(yán)謹(jǐn)?shù)穆曇�，配合高效的工作能力，帶給你最省心省力的服務(wù)體驗(yàn)……

　　鏡頭切換到泛娛樂(lè)領(lǐng)域，思必馳團(tuán)隊(duì)打造的“小馳機(jī)器人”在央視《機(jī)智過(guò)人》中，現(xiàn)場(chǎng)用撒貝寧的聲音生成了一曲《好久不見(jiàn)》。在《經(jīng)典詠流傳》中，思必馳攜手欄目組共同推出“讀詩(shī)成曲”線上互動(dòng)小工具，提供實(shí)時(shí)讀詩(shī)成曲的能力。用戶僅需讀幾句簡(jiǎn)單的詩(shī)詞，便可快速生成有腔有韻的歌聲，互動(dòng)總量超過(guò)821萬(wàn)人次。

思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱參與節(jié)目錄制

　　在個(gè)性化定制上，思必馳不僅可以提供普通話定制、歌聲定制，還可以通過(guò)遷移學(xué)習(xí)方法，提供更高難度的方言、小語(yǔ)種TTS定制，如粵語(yǔ)、上海語(yǔ)、四川話、山東話、東北話、德語(yǔ)、法語(yǔ)等。

方言合成：山東話

方言合成：四川話

　　而思必馳的情感合成技術(shù)，則賦予美妙音色豐沛的情緒，讓聲音更具表現(xiàn)力與感染力。

情感合成：開(kāi)心

　　此外，思必馳聲音復(fù)刻技術(shù)也已在斑馬智能、愛(ài)馳汽車、嵐圖汽車、仙豆智能等車聯(lián)網(wǎng)客戶以及IoT領(lǐng)域落地，僅需錄音20句話約400漢字，10分鐘之內(nèi)便可以完成模型生產(chǎn)，MOS合成音/錄音達(dá)到90%，相似度合成音/錄音達(dá)到80%。

聲音復(fù)刻：真人錄音

聲音復(fù)刻：合成音

　　人類的聲音，是人類語(yǔ)言的物質(zhì)外殼，卻承載著重要的信息和真摯的情感，擁有著無(wú)窮的魅力。人工智能突飛猛進(jìn)地發(fā)展正不斷催化人機(jī)交互方式的巨變，“萬(wàn)物可溝通、萬(wàn)事可打理”的語(yǔ)音互聯(lián)未來(lái)世界，正加速到來(lái)……