V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
zhw2590582
V2EX  ›  分享创造

Chrome 扩展 - 实时语音转字幕

  •  
  •   zhw2590582 ·
    zhw2590582 · 2022-04-03 23:01:26 +08:00 · 6736 次点击
    这是一个创建于 725 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

    就是不知道有没有人还会这种需求,就是网页看视频、听广播电台、上网课或者远程会议的时候,希望看到实时字幕的,最近花了几天时间写了这么一个扩展,给大家尝鲜。

    这个扩展就只有一个功能,就是实时语音转字幕,只要网页有声音,哪怕你把本地的视频,直接拖放到浏览器播放也算,只要网页有声音,都能实时语音识别转成字幕,还能自己调整字幕样式和下载字幕文本。

    当然语音识别用的是第三方的,目前接入了阿里云和腾讯云,科大讯飞预付的价格太贵就先不接入了。扩展是和这些云服务直连的,所以识别速度和准确度我就无法保证了,就看这些云服务品质如何了。

    当然,往往需求更大的是实时翻译功能,目前只有科大讯飞可以做到实时语音识别的同时做到实时翻译的,但需要预付年费 20000 元,太贵了先不搞这个,等用的人多了需求大了再考虑买不买这个服务吧。

    1.jpg 2.jpg

    Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

    第 1 条附言  ·  2022-04-04 21:41:56 +08:00
    发现 window 和 mac 下的 chrome 表现行为不一样,导致 window 下无法语音识别,应该是 Chrome 的 bug ,我要改一下逻辑,所以先把扩展下架了
    第 2 条附言  ·  2022-04-06 16:43:02 +08:00
    第 3 条附言  ·  2022-04-06 20:21:48 +08:00
    谷歌商店审核通过了,现在价格是每分钟 1 点数,新注册用户既有 20 点数,就是说能免费玩 20 分钟,大家可以来尝鲜。
    36 条回复    2022-04-08 08:15:33 +08:00
    Tink
        1
    Tink  
       2022-04-03 23:31:40 +08:00 via Android
    这难道不是看日本小姐姐的刚需?
    Tink
        2
    Tink  
       2022-04-03 23:33:27 +08:00 via Android
    我之前用过这个效果不错,能翻译 https://speechlogger.appspot.com/zh/
    HFX3389
        3
    HFX3389  
       2022-04-03 23:43:22 +08:00   ❤️ 2
    我先帮忙把价格贴一下,下面的价格是发帖时的价格,后面会不会变就不知道了

    价格:1 元=10 点

    - 腾讯云、阿里云:2 点 /分钟( 1 元=5 分钟)

    - 讯飞:3 点 /分钟( 1 元=3 分钟)
    dingdong
        4
    dingdong  
       2022-04-03 23:45:14 +08:00   ❤️ 1
    chrome 自带的 live caption 辅助功能不就是干这事儿的么
    zhw2590582
        5
    zhw2590582  
    OP
       2022-04-03 23:52:44 +08:00
    @dingdong chrome 自带的也不错,还免费
    zhw2590582
        6
    zhw2590582  
    OP
       2022-04-03 23:53:42 +08:00
    @Tink 看了下是对接谷歌的接口,我后面看看能不能也加入谷歌的接口
    crokily
        7
    crokily  
       2022-04-04 09:56:57 +08:00
    之前有个类似的自用想法,但在研究了各家定价后就放弃了,使用语音识别在线服务的成本实在是 略高,难以真的在生活中使用开。一节网课一两个小时,一天又不止上一节课,这样一天的成本就要大几十,难堪大用,只能非常轻度的使用。
    zhw2590582
        8
    zhw2590582  
    OP
       2022-04-04 10:40:12 +08:00
    @crokily 是的,就因为价格贵,做这个之前我还考虑了很久,也觉得做出来也没什么人用,时长太长的场景确实不太适合做语音识别
    Chism
        9
    Chism  
       2022-04-04 11:15:33 +08:00 via Android
    看看微软小娜是否有开放接口,有的话,直接做成系统级,而且离线转文字
    GoTop
        10
    GoTop  
       2022-04-05 10:20:28 +08:00
    @HFX3389 #3 这个价格,用不起啊
    woaishangban
        11
    woaishangban  
       2022-04-06 10:44:20 +08:00
    链接打不开啊?楼主,有关键字没
    l0wkey
        12
    l0wkey  
       2022-04-06 11:22:52 +08:00
    l0wkey
        13
    l0wkey  
       2022-04-06 11:24:46 +08:00
    虽然是个非全浏览器兼容的接口,但....
    既然做 Chrome 的扩展,其他浏览器的兼容性就不重要了~
    zhw2590582
        14
    zhw2590582  
    OP
       2022-04-06 11:55:51 +08:00
    @HFX3389 @GoTop 价格已经改成每分钟 0.1 元了,但初始免费的点数也变成 20 点了,太难了。

    @woaishangban 新版本还在审核,目测今天下午可以上架,目前因为 window 下的兼容问题,先把旧版本下架了。
    zhw2590582
        15
    zhw2590582  
    OP
       2022-04-06 11:56:33 +08:00
    @l0wkey 你这个是好东西,我研究一下
    l0wkey
        16
    l0wkey  
       2022-04-06 12:15:39 +08:00
    zhw2590582
        17
    zhw2590582  
    OP
       2022-04-06 12:29:33 +08:00
    @l0wkey 看了下,好像只能用于麦克风录入,不能自定义音频流录入
    l0wkey
        18
    l0wkey  
       2022-04-06 14:31:50 +08:00
    @zhw2590582 #17 看了下好像是的。。
    同样也看到一些奇怪的方式 https://github.com/jacksonsmith/what_they_say 😂
    l0wkey
        19
    l0wkey  
       2022-04-06 14:38:27 +08:00
    不过..Chrome 官方的实时字幕应该也快支持中文了 https://support.google.com/chrome/answer/10538231?hl=zh-Hans
    zhw2590582
        20
    zhw2590582  
    OP
       2022-04-06 16:43:33 +08:00
    findex
        21
    findex  
       2022-04-06 17:24:57 +08:00 via iPhone
    好东西顶一下。表示既然是用的 api ,可以做个 app 桌面完整版吗。因为很多人上网课 zoom 会议等并不是用的浏览器完成的。之前有个 v 友做了个 BeMyEars mac 客户端是调用的 mac 内置离线 siri 语音识别转字幕。就是 siri 不太准,体验不好。
    如果好用准确的话,真有不少用户愿意付费的。
    zhw2590582
        22
    zhw2590582  
    OP
       2022-04-06 17:35:28 +08:00
    @findex 搜了一下,还真没找到什么好用的实时语音识别的桌面端,可惜我只会 js ,用 electron 开发这么一个小功能的话又太臃肿
    findex
        23
    findex  
       2022-04-06 17:40:35 +08:00 via iPhone
    @zhw2590582 windows 下有网易出的一个。每天免费 1 小时。如果 js 好用的话,用户也不怕臃肿吧。100mb 可以接受。
    xueyangkk
        24
    xueyangkk  
       2022-04-07 10:38:54 +08:00
    实时字幕 一般都是调用本地的 api 实现吧 。调用远程的 其实很慢的 。 我给公司搭建的 视频识别文字 目前是异步的,识别效率算是好的 60 秒的视频 都至少 30~40 秒 这个水平 。 至于翻译 这个目前市面上开源 都是中英文翻译 。没见到有日文翻译 成中文的 有的话 求教学习下
    xueyangkk
        25
    xueyangkk  
       2022-04-07 10:42:33 +08:00
    备注下 我用的服务器是 CPU 的 要是用 GPU 的服务器速度会更快 无奈 GPU 云服务器 太贵了
    zhw2590582
        26
    zhw2590582  
    OP
       2022-04-07 10:47:04 +08:00
    @xueyangkk 能做到本地当然是最好,像 chrome 自带英语的实时语音识别一样,识别效率也很高
    rekulas
        27
    rekulas  
       2022-04-07 12:10:38 +08:00
    @xueyangkk 远程也不慢,现在大多云都有实时转译基本延时 1-5 秒,就是价格优美
    crokily
        28
    crokily  
       2022-04-07 12:26:01 +08:00
    @findex gitee 有个叫 LiveCaption 的开源项目 就是一个调用腾讯云 /百度云 /阿里云 /的桌面端程序 Go 写的 实时抓取设备的音频输出转写字幕。
    crokily
        29
    crokily  
       2022-04-07 12:50:00 +08:00
    @xueyangkk 远程效果还可以呀 我试用百度的实时转写 API 准确率挺高 而且体感延迟较低,差不多是即说即得(严格来说还是有点网络与处理延迟,但体感不明显)。
    不过发现了实时转写的一个缺点,无论远程本地,实时转写都是逐字转写的,除了识别偶然不准外,还会有识别成同音字的问题,所以只有完整讲完一整句,才能得到最准确的结果。
    而且 逐字逐字显示的字幕 跟 目前人们熟悉的字幕 体验完全不同,通常看视频字幕,人们都是盯着画面(主),快速瞄一眼字幕(次)获取完整信息,这样思维才能跟得上播放。但逐字逐字的实时字幕在人物说话过程中只有半句的信息,非得人物讲完一整句才有完整信息,这个时候看字幕才能获取到完整信息,但此时视频已经要开始下一句了,让思维跟播放进度割裂滞后了,个人感觉体验不是很好,所以实时转写似乎并不好用,除非实时转写能提前几秒转写内容。
    moeik
        30
    moeik  
       2022-04-07 13:34:56 +08:00
    这玩意在本土网络环境不能正常使用吧
    zhw2590582
        31
    zhw2590582  
    OP
       2022-04-07 13:43:30 +08:00
    @moeik 你是说国内网络吗?没问题的,都是浏览器 websocket 直连阿里云和腾讯云的
    RikiZhu
        32
    RikiZhu  
       2022-04-07 16:00:58 +08:00
    听网课却有这个需求,但感觉成本考量这个插件还是很鸡肋。现在国产手机基本都自带不限时免费的实时字幕( miui 的小米闻声,华为的实时字幕),一定要在 PC 上用的话还有网易同传的免费版可用,而且不局限于网页,可以同传整个系统声音。哈哈,希望楼主能找到合适的应用场景。
    zhw2590582
        33
    zhw2590582  
    OP
       2022-04-07 16:36:33 +08:00 via iPhone
    @RikiZhu 同意,这个扩展大多数用于临时起意的情况下使用,专业场景或者长时间使用的话还是用专业的软件好一些
    tianzi123
        34
    tianzi123  
       2022-04-07 23:38:59 +08:00
    这个商业化和使用体验最好的是彩云小译
    findex
        35
    findex  
       2022-04-08 03:09:34 +08:00
    @crokily 看了一下你推荐的。是这个吗? https://gitee.com/641453620/livecaption
    看里面的视频介绍。貌似识别速度挺快的,而且很准确。虽然有点时差,但是问题好像不大。
    crokily
        36
    crokily  
       2022-04-08 08:15:33 +08:00
    @findex 是的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   981 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:09 · PVG 04:09 · LAX 13:09 · JFK 16:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.