说话人分割用什么模型比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 178 天前的主题，其中的信息可能已经有所发展或是发生改变。

小规模会议场景（小于 10 人）下的说话人分割，希望能流式处理，请问什么模型延迟和准确性比较好呢？

提前感谢大佬回复！

（目前试过 funasr 的 cam++，分割效果不太好）

12 条回复 • 2024-06-06 20:09:31 +08:00

czfy

178 天前

q0000001

178 天前 via Android

多嘴问问，funasr 可以流式识别说话人？

BMPixel

177 天前

我之前自己试了几个，WhisperX 效果是最好的，不过好像不能流式。

Leon6868

177 天前

@q0000001 #2 readme 中有 cam++

Leon6868

177 天前

@czfy #1 好文档，不过没怎么提到说话人分割

q0000001

177 天前

@Leon6868 我也看到有，但是基本上都是非实时语音识别才有加载 cam++，看到 issue 里面说流式没有，所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个，再加载 cam++吗？

roding

177 天前

为什么要分割人😱

Leon6868

177 天前

@q0000001 #6 我描述得确实不太准确，当时是采用滑窗方式分割说话人的，类似 3s 历史+2s(未处理）这样（迫真流式）。我也没找到近期实时说话人识别/分割的工作，如果见到类似的工作欢迎多交流🙏

q0000001

177 天前 via iPhone

@Leon6868 明白明白。
没问题，最近都在搞这个，突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯，多交流。

Leon6868

161 天前

@q0000001 #9 最近尝试了一个非常好的项目，sherpa onnx ，在 asr 和说话人分割/识别方面基本能满足我的需求，你可以试一下

johnabyss

148 天前

@Leon6868
劳烦问一下，sherpa onnx 有说话人日志（ speaker-diarization ）的预训练模型么？我只找到了说话人确认的

Leon6868

147 天前

@johnabyss #11 vad speaker recognition 组合一下不就是了？