试用了很多 TTS ,目前在流畅度上都没有什么问题了,读小段文字基本上感觉不到是 AI 合成的了;
但是有没有带入感情的 TTS 生成引擎,比如读一段古诗文,能有抑扬顿挫,自动控制语速快慢的效果呢?
1
shinsekai 84 天前 1
五言的诗,拉长每句第二个字的时长;七言的诗,拉长每句第四个字的时长
|
2
kimwang 84 天前 via Android
https://github.com/netease-youdao/EmotiVoice/blob/main/README.zh.md
网易 易魔声,不过全是命令行、docker 什么的,我不是挨踢的根本搞不定,如果大兄弟会可以教我一下。 |
3
wyd011011daniel 84 天前 1
Azure 可以很有情感( SSML ),但要自动识别情感可能需要大模型生成标注。或者直接使用大语言模型试试?
1.https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice |
4
wyd011011daniel 84 天前
@wyd011011daniel #3 如果只是单纯的不带特别感情的朗诵,普通的固定格式 SSML 应该就可以做到,类似一楼的控制方法。
|
5
aitobox OP @wyd011011daniel 这个推荐很好,我研究一下;谢谢
|
6
bigtear 84 天前
我写的这个插件也是这个问题,想要尽可能效果好的朗诵里面的诗词,
现在是用的 Azure TTS 服务,每首诗都识别情感感觉还是用大模型标注比较方便。 https://github.com/xxnuo/jizhi-mod/ |
7
RiverMud 84 天前 via iPhone
iOS 17 某个版本前的 Siri 几乎可以认为能够有感情地朗读绝大部分古诗词,这个版本后的 Siri 全废了,给苹果反馈过无数次了,屁用没有。
|