请问目前有没有能够带入感情的朗读古诗文的 TTS

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 426 天前的主题，其中的信息可能已经有所发展或是发生改变。

试用了很多 TTS ，目前在流畅度上都没有什么问题了，读小段文字基本上感觉不到是 AI 合成的了；

但是有没有带入感情的 TTS 生成引擎，比如读一段古诗文，能有抑扬顿挫，自动控制语速快慢的效果呢？

7 条回复 • 2024-10-04 14:46:03 +08:00

shinsekai

2024-10-04 08:07:42 +08:00

五言的诗，拉长每句第二个字的时长；七言的诗，拉长每句第四个字的时长

kimwang

2024-10-04 10:22:59 +08:00 via Android

https://github.com/netease-youdao/EmotiVoice/blob/main/README.zh.md

网易易魔声，不过全是命令行、docker 什么的，我不是挨踢的根本搞不定，如果大兄弟会可以教我一下。

wyd011011daniel

2024-10-04 10:49:52 +08:00

Azure 可以很有情感（ SSML ），但要自动识别情感可能需要大模型生成标注。或者直接使用大语言模型试试？

1.https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice

wyd011011daniel

2024-10-04 10:51:37 +08:00

@wyd011011daniel #3 如果只是单纯的不带特别感情的朗诵，普通的固定格式 SSML 应该就可以做到，类似一楼的控制方法。

aitobox

2024-10-04 11:06:01 +08:00

@wyd011011daniel 这个推荐很好，我研究一下；谢谢

bigtear

2024-10-04 12:33:14 +08:00

我写的这个插件也是这个问题，想要尽可能效果好的朗诵里面的诗词，
现在是用的 Azure TTS 服务，每首诗都识别情感感觉还是用大模型标注比较方便。

https://github.com/xxnuo/jizhi-mod/

RiverMud

2024-10-04 14:46:03 +08:00 via iPhone

iOS 17 某个版本前的 Siri 几乎可以认为能够有感情地朗读绝大部分古诗词，这个版本后的 Siri 全废了，给苹果反馈过无数次了，屁用没有。