花時計と夢(东方同人曲干人声)

[复制链接]
查看33 | 回复0 | 14 小时前 | 显示全部楼层 |阅读模式
本帖最后由 如月风铃 于 2025-7-4 02:41 编辑


花钟与梦

花钟与梦

花钟与梦是Yonder Voice社团在2009年参与东方project同人创作活动,由瑶山百灵演唱的一首歌
和伴奏一样,我使用最新的msst模型进行处理得到音频干声

经验分享(时效性:2025/7/4)
流程:
一、人声分离

使用Ensemble High Vocals Fullness (2025.06) 模型
处理音频 瑶山百霊、Yonder Voice - 花時計と夢 (花钟与梦).flac
PS:原音频质量:从酷狗下载的无损音质36.6MB的kgma文件,经过网站的解密后转为flac格式仍保留36.6MB。我不知道为什么酷狗的加密文件大小会不变?
        
下面是该合奏分离模型的通用数据集测试指标
Instrum fullness:20.46
Instrum bleedless:32.77
Instrum SDR:11.69
Instrum L1Freq:39.86
可以看到,与伴奏相比,人声分离的数据算是惨淡,不过这很正常

二、混响分离
我使用的是avuew训练的mel reformer模型
这个模型虽然从sdr来看没有Sucial大人训练的mel reformer分高,但是对于小混响和和声的杀伤是Sucial模型比不上的(Sucial模型的优势在于大混响)

msst混响分离模型一览表
Author Architecture Works with SDR (no independent testing yet)
FoxJoy MDX-B Full track ~6.50
anvuew MelRoformer Only vocals 7.56
anvuew BSRoformer Only vocals 8.07
anvuew v2 MelRoformer Only vocals 暂无测试
Sucial MelRoformer Only vocals 10.01
各位是否对Sucial这个名字觉得熟悉,觉得熟悉就对了.素手大人是MSST-WebUI整合包的制作者

Sucial

Sucial
Sucial大人的哔哩哔哩

三、和声分离
这一步我是直接跳过的,因为现在所有开源的和声模型我试过后都感觉有点拉跨,容易把人声削去一块
况且混响模型都能够或多或少低去除一些和声,特别是anvuew模型下手是有点狠的
如果分离出来的模型还有很明显的和声(细微的就别管了),可以试试这个6月的新模型,目前sdr分最高
MelBand Roformer (@becruily)------------MelBand Karaoke (lead/back vocals)系列
Lead Vocals (SDR)
Back Vocals + Instrum SDR
10.47
15.64
四、降噪
降噪模型最近没有更新,所以我使用的是denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt
这个模型,仔细看名称:denoise代表降噪,mel band roformer是降噪算法,aufr33代表作者,sdr_27.9959说明在常规数据集测试中sdr得分27.9959
要知道27.9959这可是个恐怖的数字,你看看前面的伴奏分离只有17.几,人声分离只有11.69,混响分离<=10.01,和声才10.47
一般而言sdr到10以上就可以称之为优秀,降噪模型翻了一倍多
虽然没更新但也够用了

吐槽一点:
为啥附件只支持上传小于5M的音频,比github的25M还抠门。如果引用音乐的话又需要自己注册个域名生成外链不划算
我的伴奏分离后差不多60M,就算从flac转换为mp3也有13m。更何况我并不想把一个无损格式的音频转为有损格式,那样会损失音质
现在的歌曲质量稍微好一点的不随便几十上百m吗,作为开源社区的一份子,希望帖子的运营方能够重视附件大小这个问题






回复

使用道具 举报

2

主题

2

回帖

12

积分

初出茅庐

积分
12
QQ