V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Hades300
V2EX  ›  问与答

寻找工具或者轮子,能根据字幕切分音频

  •  
  •   Hades300 · 2020-04-12 10:20:22 +08:00 · 2060 次点击
    这是一个创建于 1688 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想象中能切成一句话一个文件的样子,大家有没有见过此类工具呢... 没有的话就要自己写了...

    9 条回复    2020-04-13 01:39:39 +08:00
    revalue
        1
    revalue  
       2020-04-12 10:24:22 +08:00
    如果弄出来可以加到 /t/661117
    love
        2
    love  
       2020-04-12 11:32:57 +08:00
    我搞过一个轮子,发现字幕文件的时间并不精准,在观看整个完整电影的时候是查觉不出来的,但分句就有问题了,如果人讲的话长一点,很多时候分出来会少半个词。。。除非一次切相近大段话成一个文件,比如设定 2 秒内讲的话全放在一起,但这样效果有时也不好(看电影情况)
    rock_cloud
        3
    rock_cloud  
       2020-04-12 11:38:54 +08:00
    建议找现成的 ASR api,一般都会带时间戳输出的
    klesh
        4
    klesh  
       2020-04-12 12:32:33 +08:00
    有字幕文件吗?里面都带有时间戳。
    音频分离和切割可以用 ffmpeg 。
    这个用 shell 脚处理一下应该很方便。
    Hades300
        5
    Hades300  
    OP
       2020-04-12 12:57:18 +08:00
    @revalue 好的 目前基于 ffmpeg 找到了一个分离视频的 https://github.com/foone/SplitBySubs/
    Hades300
        6
    Hades300  
    OP
       2020-04-12 12:57:41 +08:00
    @love 我也有点担心,,
    Hades300
        7
    Hades300  
    OP
       2020-04-12 12:58:23 +08:00
    @rock_cloud
    @klesh 确实 字幕里有准确的时间戳,已经在翻 ffmpeg 文档了,感谢~
    rock_cloud
        8
    rock_cloud  
       2020-04-12 16:18:37 +08:00
    @Hades300 可能你误解了,我的意思是找语音识别的接口,这种接口会给出每个字准确的时间,能够精确到百分之一秒,如果你需要这样高精度的时间戳的话
    mgrddsj
        9
    mgrddsj  
       2020-04-13 01:39:39 +08:00
    https://github.com/lowerquality/gentle

    另:
    @revalue #1 YouTube 上的 carykh 做了一个类似的(但没有虚拟人物)
    详见视频:
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3648 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:25 · PVG 12:25 · LAX 20:25 · JFK 23:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.