V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
unt
V2EX  ›  问与答

别人都在关心千问发布会上点奶茶,而我却关注……

  •  
  •   unt · 2 天前 via iPhone · 1561 次点击
    千问发布会上演示语音交互时,如果现场嘈杂,甚至夹杂台下人声,是如何做到语音模型不会误输入的,背后的媒体技术是什么,降噪是如何处理的,是话筒自带降噪还是需要额外佩戴降噪麦克风,如果额外佩戴麦克风,那会不会受到扬声器音响的影响。
    如果有性价比比较高的设备,求推荐
    4 条回复    2026-02-09 10:44:06 +08:00
    geomancy
        1
    geomancy  
       2 天前 via iPhone
    如果是特定演示者进行交互,也可以通过识别声纹定位到演示者。
    unt
        2
    unt  
    OP
       2 天前 via iPhone
    @geomancy 嗯,后面可以试下
    Cabana
        3
    Cabana  
       1 天前 via iPhone
    阵列麦克风,指向性麦克风,然后再做个实时降噪处理
    Meteora626
        4
    Meteora626  
       1 天前
    这是两码事,现在开源的语音模型都可以区分说话人了,你可以看看阿里开源的 asrfun 降噪、说话人识别 一堆模型
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4361 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 08:09 · PVG 16:09 · LAX 00:09 · JFK 03:09
    ♥ Do have faith in what you're doing.