V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
chengz
V2EX  ›  程序员

低成本 tts 方案

  •  
  •   chengz · 3 天前 · 3624 次点击
    自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
    1. 推理时间尽量实时(100 字符/10s)
    2. 多音色支持
    目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
    有没有比较低成本的方案推荐?
    34 条回复    2025-08-30 14:37:25 +08:00
    knva
        1
    knva  
       3 天前
    基本没有。
    letking
        2
    letking  
       3 天前
    买个显卡自己部署模型,加内网穿透
    AoEiuV020JP
        3
    AoEiuV020JP  
       3 天前
    你到底是要克隆音色还是要 tts ?
    tts 最低成本的应该就是直接调用系统的 tts ,
    克隆音色需要 AI 算力,就没有便宜的,一个小工具搞什么克隆音色,
    8820670
        4
    8820670  
       3 天前
    #3 说的对 调用系统 TTS 是最方便的。
    前段时间才做过: https://www.v2ex.com/t/1153662#reply0
    不过移动端支持其实挺一般的,具体得自己试试
    8820670
        5
    8820670  
       3 天前
    @8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
    搜 edge_tts
    yulon
        6
    yulon  
       3 天前
    我是 Mac mini 4 当副机,跑 GPT-SoVITS ,也就 3G 显存左右吧,看你要不要并行,并行还会多一点
    chengz
        7
    chengz  
    OP
       3 天前
    @AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜
    chengz
        8
    chengz  
    OP
       3 天前
    @AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜
    Leon6868
        9
    Leon6868  
       3 天前   ❤️ 1
    fish speech 、cosyvioce ( vllm ),本地部署,3060
    glouhao
        10
    glouhao  
       3 天前 via Android
    我的显卡是 A770 16g 然后调整不好一直是 cpu
    zenghx
        11
    zenghx  
       3 天前 via iPhone
    [VibeVoice 实现 90 分钟、多角色播客生成,拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样
    zenghx
        12
    zenghx  
       3 天前 via iPhone
    @zenghx 没看到自定义的需求,打扰了😂
    aishellphy
        13
    aishellphy  
       3 天前
    用 f5-tts ,在 windows 电脑上跑,自带加速引擎,速度特别香
    yulon
        14
    yulon  
       3 天前
    @zenghx VibeVoice 听说显存要占十多 G ,没有音色,当普通 TTS 用,成本也太高了,适合公司用吧
    abersheeran
        15
    abersheeran  
       3 天前
    自定义音色可以用 fish.audio
    Latin
        16
    Latin  
       3 天前
    f5-tts 之前实测过太慢了
    jackOff
        17
    jackOff  
       3 天前
    买个有 4G 显存 3050 显卡的二手笔记本,基本上可以稳定高效跑 GPT-SoVITS
    UnluckyNinja
        18
    UnluckyNinja  
       3 天前
    https://github.com/RVC-Boss/GPT-SoVITS
    https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    TTS 用上面的,SVC 用下面的,没上手用过,只是有所耳闻
    realJamespond
        19
    realJamespond  
       3 天前
    配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章,多音字直接拼音替换
    dzdh
        20
    dzdh  
       3 天前
    阿里音色克隆免费的吧.
    yianing
        21
    yianing  
       3 天前
    minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
    TQQQ
        22
    TQQQ  
       3 天前
    StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
    bigtear
        23
    bigtear  
       3 天前
    微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
    Huelse
        24
    Huelse  
       3 天前
    tcper
        25
    tcper  
       3 天前
    自己搭完就会发现还是云服务便宜
    looveh
        26
    looveh  
       3 天前
    怎么没有 index-tts
    looveh
        27
    looveh  
       3 天前
    @looveh RTX 3090 实测 120 字不到 20s
    pipi32167
        28
    pipi32167  
       3 天前
    同推荐 minimax ,效果可以的。价格也不贵。
    pipi32167
        29
    pipi32167  
       3 天前
    @bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。
    DefoliationM
        30
    DefoliationM  
       3 天前 via Android
    chrome 自带的不要钱,直接用 js 的 api 。
    bigtear
        31
    bigtear  
       3 天前
    @pipi32167 #29 你用 1.1 新版的,很不错了已经,达到了 edge tts 的水平
    cwcc
        32
    cwcc  
       3 天前
    我直接用 macOS 自带的个人声音生成自己的声音,也够用了。
    yulon
        33
    yulon  
       2 天前
    楼上那么多说 minimax ,早上试了下刚用几次就 504 了,没绷住
    RobinHuuu
        34
    RobinHuuu  
       2 天前 via iPhone
    试过手机 app/安卓端,可下载和使用离线模型,效果还行
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   914 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:09 · PVG 04:09 · LAX 13:09 · JFK 16:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.