V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
5bb864e1fc775087
V2EX  ›  问与答

有没有语音转拼音的工具或 API 接口

  •  
  •   5bb864e1fc775087 · 2022-01-27 09:50:18 +08:00 · 2253 次点击
    这是一个创建于 1032 天前的主题,其中的信息可能已经有所发展或是发生改变。
    与平常的语音识别,语音转文字不同, 我需要语音识别转出对应发音的拼音和声调

    看了腾讯云, 百度云, 阿里云基本只提供语音转文字的接口, 没法满足需求

    大伙有没有这方面的工具, 接口或者思路


    PS 有人会说"语音转文字, 文字再转拼音", 用这种方式的话, 比如我在音频里读的是"管东", 语音识别结果会修正并返回"广东", 再转拼音就成了 guang dong, 但我实际的发音是 guan dong
    8 条回复    2022-01-27 15:17:26 +08:00
    sanebow
        1
    sanebow  
       2022-01-27 10:02:32 +08:00 via iPhone
    以我对语音识别的粗浅了解,第一步就是先把声音转换为声学模型或者说某种声学表示(非拼音),然后第二步才是根据语言模型去转换成文字。所以看最终需求,估计转拼音不一定是楼主真正需要的
    5bb864e1fc775087
        2
    5bb864e1fc775087  
    OP
       2022-01-27 10:10:21 +08:00
    这方面我也是没了解过。我要做的是给一句话, 用户读出来, 然后比对发音是否准确, 而不是比对语音识别后的文字是否相同(被修正后的文字)
    sanebow
        3
    sanebow  
       2022-01-27 10:18:42 +08:00 via iPhone   ❤️ 1
    @5bb864e1fc775087 哦就是很多语言教学软件都在做的那种。建议看一下一些开源中文语音识别项目中间步骤是不是有输出拼音或者某种音标。现成的 API 不知道存不存在
    czfy
        4
    czfy  
       2022-01-27 10:20:10 +08:00
    这种需求太少见了,看起来只能自己重新训练模型
    sanebow
        5
    sanebow  
       2022-01-27 10:22:04 +08:00 via iPhone
    @5bb864e1fc775087
    @sanebow 随便找了个 https://github.com/nl8590687/ASRT_SpeechRecognition 声音模型好像是直接输出汉语拼音的
    5bb864e1fc775087
        6
    5bb864e1fc775087  
    OP
       2022-01-27 11:01:06 +08:00
    @sanebow #5 这个 GitHub 项目刚才我也看了,确实是先语音转拼音,再拼音转文字。我去入门学习下看看能不能改成我要的程序
    colatea
        7
    colatea  
       2022-01-27 13:42:21 +08:00   ❤️ 1
    以前做过,自己训练的,只要有打了标签的数据,并且在限定范围内的话,很容易实现,开源的项目很多,但都需要改点内容
    lllllIIIlll
        8
    lllllIIIlll  
       2022-01-27 15:17:26 +08:00   ❤️ 1
    可以参考一下 Kaldi 的解码器。 编译 HCLG 时去掉字典( L ),G 语言模型,只用 HC 就可以直接输出拼音(音素)。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   886 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:40 · PVG 04:40 · LAX 12:40 · JFK 15:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.