域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過
引言語音合成(Text-to-Speech, TTS)是指文字轉(zhuǎn)語音相關(guān)技術(shù)。隨著人工智能技術(shù)的發(fā)展,TTS 的聲學(xué)模型和聲碼器模型效果都在不斷提高,單一語言在數(shù)據(jù)量足夠的情況下已經(jīng)可以合成較高品質(zhì)的語音。研究人員們也逐漸開始關(guān)注跨語言語音合成領(lǐng)域,本文介紹網(wǎng)易游戲廣州 AI Lab 在 Interspeech 2022 中發(fā)表的一篇跨語言語音合成論文《Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech》,該論文提出了音素長度調(diào)節(jié)模塊來解決 IPA 序列與單語言對(duì)齊系統(tǒng)對(duì)齊結(jié)果的不匹配問題,同時(shí)使用了基于 Fastpitch 的非自回歸聲學(xué)模型,實(shí)驗(yàn)結(jié)果表明了訓(xùn)練集說話人數(shù)量的增加、音高和能量的顯示建模(主要是音高)都有助于非自回歸跨語言 TTS 中說話人音色和語言的信息解耦。
論文標(biāo)題:Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech論文鏈接:https://arxiv.org/abs/2110.07192演示網(wǎng)址:https://hyzhan.github.io/NAC-TTS/論文相關(guān)背景目前跨語言TTS的主要實(shí)現(xiàn)方法有:跨語言中間特征、跨語言文本表示、對(duì)抗式訓(xùn)練、發(fā)音單元設(shè)計(jì)、跨語言文本處理模型等。更多相關(guān)背景知識(shí)及發(fā)展概述可閱讀:《跨語言語音合成方法的發(fā)展趨勢(shì)與方向》,本文不再贅述。近年來,F(xiàn)astSpeech、FastPitch、FastSpeech2 等非自回歸聲學(xué)模型除了在語音生成速度上表現(xiàn)出巨大優(yōu)勢(shì),生成語音自然程度也越來越高,相關(guān)論文作者試圖在跨語言語音合成系統(tǒng)中使用非自回歸聲學(xué)模型,但是由于典型的非自回歸聲學(xué)模型需要加入顯式的音素發(fā)音時(shí)長進(jìn)行模型訓(xùn)練,這會(huì)導(dǎo)致模型增加使用 IPA 這類跨語言文本表示的難度(因?yàn)檫@樣會(huì)需要有一個(gè)跨語言的文本語音對(duì)齊系統(tǒng))。該論文提出了音素長度調(diào)節(jié)模塊來避免這個(gè)問題,同時(shí)還在 FastPitch 的基礎(chǔ)上加入了 energy predictor,評(píng)估了訓(xùn)練數(shù)據(jù)集說話人數(shù)量、不同模塊及文本表示、是否使用對(duì)抗訓(xùn)練對(duì)說話人音色解耦的影響。方法概述首先基于開源字典 [1]構(gòu)造一個(gè)自定義的字典,將語言相關(guān)的音素轉(zhuǎn)換(LDP)為 IPA 表示,其中語言相關(guān)的音素集在中文中為拼音,在英文中為 Aprabet 表示,將 IPA 音素序列及其對(duì)應(yīng) LDP 的音素長度輸入到上圖的 Phoneme Length Regulator,即可實(shí)現(xiàn)輸入表示序列與單語言對(duì)齊系統(tǒng)得到的發(fā)音時(shí)長相匹配,進(jìn)而完成聲學(xué)模型的訓(xùn)練。以下圖中的 “Steins Gate 的選擇”為例,“Steins Gate” 對(duì)應(yīng)的 Aprabet 表示為:S T AY1 N Z,“的選擇”對(duì)應(yīng)的拼音為:d e0 x uan3 z e2;根據(jù)前面構(gòu)造的自定義字典將語言相關(guān)的音素(LDP)轉(zhuǎn)換為對(duì)應(yīng)的 IPA 字符及其 IPA 字符數(shù)量;通過 embedding 的方式將 IPA 字符映射成對(duì)應(yīng)的 IPA embedding 序列,并基于 LDP 對(duì)應(yīng)的 IPA 字符數(shù)量對(duì) IPA embedding 序列進(jìn)行聚合得到,LDP 級(jí)別的 embedding 序列。各個(gè)序列的長度約束關(guān)系見參考論文 2.2 節(jié),總的來說就是用變長的 phoneme length 來控制需要聚合的 IPA embedding 序列數(shù)量,以此來表示對(duì)應(yīng)的 LDP embedding,從而讓 IPA 序列可以使用單語言對(duì)齊的音素時(shí)長信息,完成整個(gè)模型的訓(xùn)練。
聲學(xué)模型框架上是基于 Fastpitch 的聲學(xué)模型加入了 energy predictor 模塊,再結(jié)合了論文提出的 Phoneme Length Regulator 模塊。還有一個(gè)區(qū)別就是論文的 speaker embedding 是加在 encoder output 的,而不是常見的 encoder input,以及在預(yù)測(cè) variance predictor 的時(shí)候?qū)斎脒M(jìn)行了 detach 操作來避免時(shí)長、音高、能量預(yù)測(cè)對(duì) encoder 的潛在影響。
實(shí)驗(yàn)
論文實(shí)驗(yàn)主要涉及中文和英文,中文數(shù)據(jù)集為開源的標(biāo)貝女聲及內(nèi)部數(shù)據(jù)集,英文數(shù)據(jù)集為開源的 LJSpeech 及 CMU arctic 數(shù)據(jù)集。作者構(gòu)造了三種性別平衡及語言平衡的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),表 1 描述了各個(gè)子數(shù)據(jù)集的構(gòu)成情況:d1:中文男聲 5 小時(shí),英文女聲 5 小時(shí);d2:中文女聲 1 小時(shí),英文男聲 1 小時(shí);d3:中文男女聲各 1 小時(shí),英文男女聲各 1 小時(shí),通過逐步增加訓(xùn)練集規(guī)模來進(jìn)行相關(guān)實(shí)驗(yàn),評(píng)測(cè)階段僅使用 d1 中的 LJSpeech 的英文女聲及內(nèi)部數(shù)據(jù)集的中文男聲進(jìn)行評(píng)測(cè)。4.1 說話人數(shù)量的影響
論文首先研究了訓(xùn)練集中包含不同數(shù)量的說話人時(shí),說話人和語言信息之間的糾纏情況。其中 d1 有 2 個(gè)說話人,d1+d2 有 4 個(gè)說話人,d1+d2+d3 有 8 個(gè)說話人,均為性別及語言平衡的數(shù)據(jù)集。表 2 評(píng)估了 d1 數(shù)據(jù)集中文男聲在純中文、純英文和中英混合句子的語音自然程度及相似度??梢园l(fā)現(xiàn),d1 訓(xùn)練集中,中文男聲在中文語音上表現(xiàn)最好,中英混合語音表現(xiàn)次之,純英文表現(xiàn)最差,尤其是純英文的相似度指標(biāo)上。這意味著訓(xùn)練集中一種語言只有一個(gè)說話人,對(duì)提升目標(biāo)說話人的跨語言發(fā)音能力幫助有限;同時(shí)作者也推測(cè)雖然 IPA 符號(hào)可以用在所有語言上,但是依舊存在某種語音有一些獨(dú)有的 IPA 符號(hào)的情況,從而在這種一種語言只有一個(gè)說話人的訓(xùn)練集上導(dǎo)致了說話人音色信息和語言信息的混淆。另一方面,隨著訓(xùn)練集兩種語言說話人數(shù)量的增加,在跨語言語音場(chǎng)景下,中文男聲說話人的 Naturalness 及 Similarity 主觀評(píng)分均出現(xiàn)了較明顯的提高,Naturalness 主觀評(píng)分的方差也逐漸在減小。這說明了訓(xùn)練集中說話人的多樣性不僅有利于說話人音色信息和語言信息的解耦,還有利于提高非自回歸跨語言 TTS 模型的穩(wěn)定性。因此,后續(xù)實(shí)驗(yàn)均基于 d1+d2+d3 的數(shù)據(jù)集進(jìn)行。4.2 對(duì)比實(shí)驗(yàn)
論文選擇了 3 個(gè)對(duì)比模型,一個(gè)是基于 IPA 表示 Tacotron 聲學(xué)模型框架的 Tacotron-based,二是基于 LDP 表示和 GRL(gradient reversal layer)Fastspeech 聲學(xué)模型框架的 FastSpeech-LDP,三是將 FastSpeech-LDP 中的 LDP 表示替換為本文中的 IPA 表示加 Phoneme Length Regulator 模塊的方法,最后則是本文提出的模型框架。總的來說,在本實(shí)驗(yàn)中幾個(gè)非自回歸模型的表基本都好于 Tacotron-based;對(duì)比 FastSpeech-LDP 和 FastSpeech-IPA 中英說話人在三種類型文本的Naturalness和Similarity指標(biāo),兩者的 Naturalness 基本接近,不過 FastSpeech-IPA 在大部分情況取得了更高的 Similarity 主觀評(píng)分,這表明 IPA 表示加上 Phoneme Length Regulator 模塊的實(shí)現(xiàn)可以幫助模型學(xué)習(xí)不同語言的發(fā)音。然而,本文提出的模型在跨語言場(chǎng)景的表現(xiàn)明顯優(yōu)于 FastSpeech-LDP 及 FastSpeech-IPA,這說明使用 variance adaptors 有助于提高跨語言語音合成模型的性能表現(xiàn),雖然 variance adaptors 本身是作為解決語音合成中的“一對(duì)多”問題提出的,但是實(shí)驗(yàn)表明了對(duì)語音的韻律特征進(jìn)行顯示建模有助于說話人和語言信息的解耦。4.3 消融實(shí)驗(yàn)
論文 做了三組消融實(shí)驗(yàn)來評(píng)估 GRL 梯度反傳層、pitch predictor、energy predictor 對(duì) proposed model 的影響。實(shí)驗(yàn)表明,GRL 的引入并沒有帶來收益,一方面可能是 IPA 表示加上說話人多樣性的引入已經(jīng)能較好地對(duì)說話人音色信息和語言信息進(jìn)行解耦,另一方面可能是因?yàn)?GRL 中的超參數(shù)較為敏感,暫不適用于本文提出的模型。去掉 pitch predictor 和 energy predictor 導(dǎo)致了語音自然程度和相似度有較明顯的惡化(尤其是 pitch predictor),這表明了在 variance predictor 的有效性??偨Y(jié)論文提出了 Phoneme Length Regulator 模塊,使得非自回歸跨語言 TTS 模型中的 IPA 表示與單語言強(qiáng)制對(duì)齊信息可以同時(shí)使用;構(gòu)造了一個(gè)不需要對(duì)抗式訓(xùn)練、基于 IPA 表示的 Fastpitch-based 模型,取得了不錯(cuò)的語音自然程度及說話人相似度。論文實(shí)驗(yàn)表明說話人多樣性、IPA 表示、variance adaptors 都能夠幫助非自回歸跨語言 TTS 模型解耦說話人和語言信息。本文通過引入一個(gè)較為簡(jiǎn)單的方法使其可以利用單語言強(qiáng)制對(duì)齊信息和 IPA 表示,再加上說話人多樣性和 variance adaptors 引入,已經(jīng)可以在不使用常見對(duì)抗式訓(xùn)練的方式在跨語言語句上取得不錯(cuò)的語音自然程度及說話人相似度。另外,第一版論文和演示網(wǎng)頁還展示了對(duì)中式英文發(fā)音可控性的潛力,如果有 PLR 模塊的示例代碼會(huì)更好一些,不過本身思想也不算復(fù)雜,實(shí)現(xiàn)難度不大,從實(shí)驗(yàn)結(jié)果來看,總體上是一個(gè)邏輯通順、簡(jiǎn)單又有效的解決方案。(作者:音月)
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!