既然有了 Waifu2x 这种基于深度卷积神经网路来工作的图像放大工具, 那么音讯采样应该也可以用类似的方法放大才对。
1
xiaome 2017-09-24 19:07:20 +08:00
这个感觉不是一个类型吧,图片的像素排列按照放大的比例可以推算出来,但是声音采样率不高的话就是从无到有了。
就算可以按照前面一个峰值来推算,效果也不会太好吧。 题外话,你这是香港或者台湾人? |
2
ShikiSuen OP |
4
lsylsy2 2017-09-24 19:56:26 +08:00
纯粹的“放大音频”不太可行,就是无中生有了;
但是给定“某种类型”的话,有可能可以做到,比如让模糊的人类语音变得更容易识别之类。 |
5
wjm2038 2017-09-24 21:42:00 +08:00 via Android
神经网络训练的目标不一样啊,再说转换为图片之后就不是可控制的优化了两
|
6
Quaintjade 2017-09-24 21:42:18 +08:00
@xiaome @lsylsy2
图像清晰化其实也是无中生有吧,低分辨率原图本身包含的有效信息量就那么多,upscale 靠的是计算机的“脑洞”来增补信息,和“眼中有码,心中无码”差不多。 这种“脑洞”本质上是预先存储的通用信息,不一定完全正确,但正确的概率很高。指定图片类型(现实?漫画?油画?)也是提供更多信息,让计算机知道应该使用哪种脑洞。 类比到音频,虽然低码率原音频包含的有效信息量不多,但也能靠“脑补”来增补信息。 最简单的例子是大部分声音频率都会有“泛音”,比如说原音频有较强的 3kHz 和稍弱的 6kHz,那么有很大概率会有 12kHz,24kHz 的泛音,可能还会有 9kHz,18kHz 的泛音(纯五度),强度依次减弱。 以前用这种方法手动粗暴伪造过高频,能骗过虾米审核,不过听起来不太好。如果机器学习能形成更好的“脑洞”应该是可以实现的。 |
7
minami 2017-09-24 22:24:40 +08:00
考虑到 FFT 后的音频数据也是二维张量,我觉得可行。但是不能直接套用 waifu2x 的预训练模型,甚至很可能要重新设计网络结构。
ps:我觉得可以结合 GAN,效果应该比显式套用损失函数好 |
8
zmj1316 2017-09-25 06:44:01 +08:00 via Android 1
大法的 dsee hx 就是类似吧
|