V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KC35
V2EX  ›  程序员

突然好奇,消除歌曲中的人声技术上是怎么实现的?

  •  
  •   KC35 · 2023-01-12 17:37:55 +08:00 · 3187 次点击
    这是一个创建于 442 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如有一个音频文件,把歌手的声音和乐器分开

    得到两个音轨:一个是人声音轨,另一个是乐器部分

    20 条回复    2023-01-13 02:55:52 +08:00
    8eacekeep
        1
    8eacekeep  
       2023-01-12 17:40:27 +08:00
    乐器一般占高低频,以前就是直接抠。现在人工智的话,大概是分析人声特征吧,不过不论哪一种效果都不咋地,都抠不干净的
    Xymmh
        2
    Xymmh  
       2023-01-12 17:46:03 +08:00
    利用人声在左右声道里相位相同的原理吧,记得几百块钱的电子琴都有这个功能,还是实时的
    moondark
        4
    moondark  
       2023-01-12 17:51:09 +08:00
    这种叫做 声伴 分离技术,用机器学习训练的
    最新算法目前对于流行歌曲抠的还可以,对于 RAP 类的不太行
    zhuangzhuang1988
        5
    zhuangzhuang1988  
       2023-01-12 17:54:58 +08:00   ❤️ 1
    可以看下吴恩达的 机器学习,无监督学习 下面链接直接定位到了 那个 DEMO
    https://www.bilibili.com/video/BV164411b7dx?t=393.7&p=4
    PS: 都是数学
    noe132
        6
    noe132  
       2023-01-12 18:02:34 +08:00
    最简单的就是看声相位置,通常鼓和人声都在声场中间,其他乐器通常在侧位,可以直接分离出来,但是这种看歌曲,而且很多时候效果并不好,还会把鼓点也都移除掉了。以前用 Audition 操作过,很简单只需要按几下按钮就能搞定。
    复杂的就不太了解了
    Yadomin
        8
    Yadomin  
       2023-01-12 18:07:42 +08:00   ❤️ 3
    zeni123
        9
    zeni123  
       2023-01-12 18:12:34 +08:00
    和人工智能抠图后背景还在那种场景差不多
    KC35
        10
    KC35  
    OP
       2023-01-12 18:12:59 +08:00
    @Yadomin 这个可以!
    bao3
        11
    bao3  
       2023-01-12 18:17:09 +08:00 via iPhone
    @Yadomin 感谢分享这个很有用
    shakoon
        12
    shakoon  
       2023-01-12 18:20:48 +08:00
    模拟电路里,这是一个滤波器,可以把特定频率的声波减弱,几十年前的卡拉 OK 功放机就有这个功能,当然,效果是有限的,因为有很多伴奏也在人声的这个范围。实际上三十年前的卡拉 OK VCD 是将已经用上面方式去掉人声的伴奏作为一个声道,完整的歌曲作为另一个声道,这样极大方便了使用,也降低了对设备的要求。
    fengleiyidao
        13
    fengleiyidao  
       2023-01-12 18:24:03 +08:00
    估计,最简单粗暴的方法就是,直接在频域把人声最强的那个频段清零,或幅度压低。
    fengleiyidao
        14
    fengleiyidao  
       2023-01-12 18:25:13 +08:00
    @shakoon
    Bandstop filter
    xuanbg
        15
    xuanbg  
       2023-01-12 18:46:53 +08:00
    没有什么信号是傅立叶变换滤不出来的。。。
    youxiachai
        16
    youxiachai  
       2023-01-12 18:52:35 +08:00
    团子 AI 这块做得蛮好的...如果有需求的话,可以充值一下..
    billlee
        17
    billlee  
       2023-01-12 19:46:53 +08:00
    @fengleiyidao 但流行音乐伴奏的频率和人声是一样的啊
    edis0n0
        18
    edis0n0  
       2023-01-12 19:56:12 +08:00
    @Yadomin #8 这个效果太差了,之前看到过一个安装包大小快 20GB 的开源项目效果比这个好很多,但也比付费的差很多,目前测试过效果还行的是 moises.ai (不是广告),也只能说还行,还是有很多没抠掉,每个账号免费 5 首
    fengleiyidao
        19
    fengleiyidao  
       2023-01-12 20:12:32 +08:00
    @billlee 人声应该是主要集中在一个很窄的频段里,比音乐窄多了。
    MMMMMMMMMMMMMMMM
        20
    MMMMMMMMMMMMMMMM  
       2023-01-13 02:55:52 +08:00
    bass 低频,vocal 中频,drum 根据 bpm 间隔性剥离,AI 火起来之前是这么干的

    现在流行 AI 炼丹了,对抗生成什么的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2815 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:36 · PVG 21:36 · LAX 06:36 · JFK 09:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.