V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Zorro825
V2EX  ›  程序员

公司想开发个录音笔产品,配套语音转文字,请教解决方案。

  •  
  •   Zorro825 · 228 天前 · 1526 次点击
    这是一个创建于 228 天前的主题,其中的信息可能已经有所发展或是发生改变。

    录音转文字 APP ,应该怎么做,有什么现成方案吗? 如果用阿里云这些,成本太高了,有没有什么开源好用的,请教大家。

    11 条回复    2023-09-13 17:27:49 +08:00
    xuAN111
        1
    xuAN111  
       228 天前
    DeepSpeech
    rsy
        2
    rsy  
       228 天前
    AppJun
        3
    AppJun  
       228 天前
    iOS SDK 有 SFSpeechRecognizer ,如果想用 Whisper 有 whisper.cpp 。

    Whisper 的模型大小对中文识别有一定影响,但是影响也有限,新的 iPhone 可以跑得动一些比较大的模型,老的 iPhone 就不一定有足够内存了。

    另外但是因为训练集是字幕,导致中文容易出现一些预期外的文字,比如“字幕制作:某某”“谢谢观看”之类的幻想结果。
    Zorro825
        4
    Zorro825  
    OP
       228 天前
    @AppJun 谢谢
    Zorro825
        5
    Zorro825  
    OP
       228 天前
    @rsy 谢谢
    Zorro825
        6
    Zorro825  
    OP
       228 天前
    @xuAN111 谢谢
    Zorro825
        7
    Zorro825  
    OP
       228 天前
    @AppJun 安卓不能用吗
    Zorro825
        8
    Zorro825  
    OP
       228 天前
    @rsy 这个是云端解决方案吗,用户上传文件,服务器翻译,然后返回结果
    rsy
        9
    rsy  
       227 天前
    @Zorro825 Whisper 可以直接下载到自己电脑上使用,无需联网,也不需要调 API 花钱
    EatIce
        10
    EatIce  
       227 天前
    得和科大讯飞的产品对比一下,有自己的市场竞争力再做
    iorilu
        11
    iorilu  
       227 天前
    你想实时识别本地性能可能不够把
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1006 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:53 · PVG 02:53 · LAX 11:53 · JFK 14:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.