CosyVoice是通義實驗室依托大規(guī)模預(yù)訓(xùn)練語言模型,深度融合文本理解和語音生成的新一代生成式語音合成大模型,支持文本至語音的實時流式合成??梢詰?yīng)用于:智能設(shè)備/機器人播報的語音內(nèi)容,如智能客服機器人、智能音箱、數(shù)字人、語音助手等。
音視頻創(chuàng)作中需要將文字轉(zhuǎn)為語音播報的場景,如小說閱讀、新聞播報、影視解說、劇本配音等。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
CosyVoice則專注自然語音生成,支持多語言、音色和情感控制,支持中英日粵韓5種語言的生成,效果顯著優(yōu)于傳統(tǒng)語音生成模型。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細(xì)節(jié),包括跨語種語音生成。而且CosyVoice支持以富文本或自然語言的形式,對生成語音的情感、韻律進(jìn)行細(xì)粒度的控制,生音頻在情感表現(xiàn)力上得到明顯提升。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
CosyVoice是一款基于語音量化編碼的語音生成大模型。它對語音進(jìn)行離散化編碼,并依托大模型技術(shù),實現(xiàn)自然流暢的語音生成體驗。與傳統(tǒng)語音生成技術(shù)相比,文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
CosyVoice具有韻律自然、音色逼真等特點。CosyVoice支持多達(dá)5種語言,同時還支持以自然語言或富文本形式對生成語音進(jìn)行情感等維度的細(xì)粒度控制。研究團(tuán)隊提供了基模型CosyVoice-300M、經(jīng)過SFT微調(diào)后的模型CosyVoice-300M-SFT、以及支持細(xì)粒度控制的模型CosyVoice-300M-Instruct,可滿足不同場景下的使用需求。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
通過與原始音頻以及最近大火的ChatTTS對比,可以發(fā)現(xiàn)CosyVoice的合成音頻在內(nèi)容一致性上更高,并且沒有很少存在幻覺額外多字的現(xiàn)象。CosyVoice很好地建模了合成文本中的語義信息,達(dá)到了與人類發(fā)音人相當(dāng)?shù)乃?。此外,通過對合成音頻進(jìn)行重打分,能夠進(jìn)一步降低識別的錯誤率,甚至在內(nèi)容一致性和說話人相似度上超越人類。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
(文件包有預(yù)合成演示音頻,可自行聽取)文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
CosyVoice-300M本身具備一定從文本內(nèi)容中推斷情感的能力,經(jīng)過細(xì)粒度控制訓(xùn)練的模型,CosyVoice-300M-Instruct在情感分類中的得分更高,具備更強的情感控制能力。文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html
文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html文章源自四五設(shè)計網(wǎng)-http://www.133122.cn/50461.html

評論