在開始本篇文章前,我們先來考驗一下大家的耳朵。請聆聽下方兩段音頻,分辨一下哪段是真人錄音,哪段由思必馳語音合成?
音頻A
音頻B
A:語音合成 B:真人錄音
怎么樣,你選對了嗎?
1、語音合成的“前世今生”
語音合成(Text to Speech,TTS)又稱文本語音轉換技術,顧名思義,是把文本信息轉化成語音信息。人的語音,本質上是發(fā)音器官震動,產生聲波傳出。

人類發(fā)音示意圖
模仿人聲,最古老的方法是使用樂器。到19世紀,就可以用機械方法產生語音了。那時,科學家們會制作出一些精巧的氣囊和風箱去搭建發(fā)聲系統(tǒng),合成出一些元音和單音。
進入電子時代的1939年,貝爾實驗室H·杜德利制作出第一臺電子合成器,這是用共振峰原理制作的語音合成器,該技術使用固定頻率,以電子復制我們改變口型時所發(fā)出的元音聲,也這正是英國劍橋大學著名物理學家斯蒂芬·霍金教授所使用的聲音合成器。
上世紀90年代,隨著計算和存儲能力大幅度提升,基于大語料庫的單元挑選與波形拼接合成方法出現,可以合成出高質量的自然人語音。

語音合成技術演變
進入21世紀,隨著深度學習技術的興起和快速發(fā)展,以語音合成為代表的語音處理技術得到了極大的飛躍。神經網絡語音合成在近幾年來取得了顯著突破,合成音的音質和自然度越來越高,運行速度也越來越快。思必馳目前所使用的,也正是這種方法。
2、思必馳TTS,魅力何在?
早在2007年于英國劍橋大學創(chuàng)立時,思必馳關于語音合成技術研究就已開啟,該項工作由思必馳聯合創(chuàng)始人兼首席科學家、上海交通大學教授俞凱領頭。
語音合成系統(tǒng)主要分為文本處理、聲學模型、聲碼器三個部分。文本處理負責對文本進行轉寫和phoneme序列轉換;聲學模型使用深度神經網絡,可以在文本特征與聲學特征之間學習到更復雜的非線性關系;聲碼器負責將聲學模型輸出的聲學特征,通過卷積運算,轉換成音頻。
經過10多年的研究積累,思必馳在建模方法上,涵蓋了從傳統(tǒng)的統(tǒng)計參數模型到最新的基于神經網絡的方法;對聲碼器的研究,涵蓋了從傳統(tǒng)的基于信號處理的方法到最新的基于神經網絡的方法。
語音合成的質量與效果,既有賴于語音廠商的算法模型,還取決于音頻語料的質量,即數據質量。思必馳有著豐富的聲優(yōu)資源以及聲優(yōu)挑選的經驗,在蘇州建設有專業(yè)錄音棚并與國內多個城市的錄音棚有著長久合作關系。與此同時,思必馳數據團隊也對數據標注有著嚴格的質量把控。

位于思必馳蘇州總部的專業(yè)錄音棚
經過多年的技術積累,思必馳已逐步形成了一套成熟的技術方案,業(yè)務涵蓋了大數據語音定制、小數據快速定制、聲音克隆、歌聲合成、小語種合成、方言合成、情感合成等,可選公有云、私有云以及離線三種部署方式,經典音色可在思必馳官網實時體驗。
2017年、2020年,思必馳還先后參與國家標準《中文語音合成互聯網服務接口規(guī)范》與行業(yè)標準《中文語音合成服務系統(tǒng)評估規(guī)范》的制定,并成為全國首批通過評估測評的公司之一,獲得“TTS-4S(Standard Similarity Scene System)服務證書”。該測評從合成質量、定制能力、場景表現力和系統(tǒng)安全可靠等維度,全面評估合成水平和服務能力。

2019年11月,思必馳首批通過“中文語音合成水平測試”
3、未來世界,百“聲”爭鳴
為能快速提供語音合成定制服務,思必馳全程提供音色選擇、錄音指導、音頻處理、模型訓練、服務部署等專業(yè)服務,賦予產品開口講話的能力。
截至目前,思必馳語音合成已建設的音色庫內包含音色接近200個,涵蓋多種角色、多種風格,以及各個年齡層次。
一禪小和尚
精品女聲
精品男聲
思必馳語音合成服務,也已在車載、白電、機器人、智能客服等諸多領域成功落地,為眾多終端產品賦予聲的魅力,使得萬物皆可溝通,并逐漸走入人們的工作與生活。
當你在家里“躺平”,來自如影智能的語音管家“Edison”,用他溫暖、紳士的聲音(文章開頭的音頻A),為你帶來踏實與慰藉;當你在愛車中馳騁,車蘿卜的語音助理“蘿卜”清脆、簡明的聲音,如同車水馬龍路途中的一股清流;當你接起順豐95338服務熱線的外呼電話,智能客服“豐小蜜”親切又不失嚴謹的聲音,配合高效的工作能力,帶給你最省心省力的服務體驗……
鏡頭切換到泛娛樂領域,思必馳團隊打造的“小馳機器人”在央視《機智過人》中,現場用撒貝寧的聲音生成了一曲《好久不見》。在《經典詠流傳》中,思必馳攜手欄目組共同推出“讀詩成曲”線上互動小工具,提供實時讀詩成曲的能力。用戶僅需讀幾句簡單的詩詞,便可快速生成有腔有韻的歌聲,互動總量超過821萬人次。

思必馳聯合創(chuàng)始人兼首席科學家俞凱參與節(jié)目錄制
在個性化定制上,思必馳不僅可以提供普通話定制、歌聲定制,還可以通過遷移學習方法,提供更高難度的方言、小語種TTS定制,如粵語、上海語、四川話、山東話、東北話、德語、法語等。
方言合成:山東話
方言合成:四川話
而思必馳的情感合成技術,則賦予美妙音色豐沛的情緒,讓聲音更具表現力與感染力。
情感合成:開心
此外,思必馳聲音復刻技術也已在斑馬智能、愛馳汽車、嵐圖汽車、仙豆智能等車聯網客戶以及IoT領域落地,僅需錄音20句話約400漢字,10分鐘之內便可以完成模型生產,MOS合成音/錄音達到90%,相似度合成音/錄音達到80%。
聲音復刻:真人錄音
聲音復刻:合成音
人類的聲音,是人類語言的物質外殼,卻承載著重要的信息和真摯的情感,擁有著無窮的魅力。人工智能突飛猛進地發(fā)展正不斷催化人機交互方式的巨變,“萬物可溝通、萬事可打理”的語音互聯未來世界,正加速到來……