花時計と夢(东方同人曲干人声)

显示全部楼层 · 2025-7-4 02:32:47

本帖最后由如月风铃于 2025-7-4 02:41 编辑

花钟与梦

花钟与梦是Yonder Voice社团在2009年参与东方project同人创作活动，由瑶山百灵演唱的一首歌
和伴奏一样，我使用最新的msst模型进行处理得到音频干声

经验分享（时效性：2025/7/4）
流程：
一、人声分离

使用Ensemble High Vocals Fullness (2025.06) 模型
处理音频瑶山百霊、Yonder Voice - 花時計と夢 (花钟与梦).flac
PS:原音频质量：从酷狗下载的无损音质36.6MB的kgma文件，经过网站的解密后转为flac格式仍保留36.6MB。我不知道为什么酷狗的加密文件大小会不变？

下面是该合奏分离模型的通用数据集测试指标
Instrum fullness：20.46
Instrum bleedless：32.77
Instrum SDR：11.69
Instrum L1Freq：39.86
可以看到，与伴奏相比，人声分离的数据算是惨淡，不过这很正常

二、混响分离
我使用的是avuew训练的mel reformer模型
这个模型虽然从sdr来看没有Sucial大人训练的mel reformer分高，但是对于小混响和和声的杀伤是Sucial模型比不上的(Sucial模型的优势在于大混响)

msst混响分离模型一览表

Author	Architecture	Works with	SDR (no independent testing yet)
FoxJoy	MDX-B	Full track	~6.50
anvuew	MelRoformer	Only vocals	7.56
anvuew	BSRoformer	Only vocals	8.07
anvuew v2	MelRoformer	Only vocals	暂无测试
Sucial	MelRoformer	Only vocals	10.01

各位是否对Sucial这个名字觉得熟悉，觉得熟悉就对了.素手大人是MSST-WebUI整合包的制作者

Sucial

Sucial大人的哔哩哔哩

三、和声分离
这一步我是直接跳过的，因为现在所有开源的和声模型我试过后都感觉有点拉跨，容易把人声削去一块
况且混响模型都能够或多或少低去除一些和声，特别是anvuew模型下手是有点狠的
如果分离出来的模型还有很明显的和声（细微的就别管了），可以试试这个6月的新模型，目前sdr分最高
MelBand Roformer (@becruily)------------MelBand Karaoke (lead/back vocals)系列

Lead Vocals (SDR)	Back Vocals + Instrum SDR
10.47	15.64

四、降噪
降噪模型最近没有更新，所以我使用的是denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt
这个模型，仔细看名称：denoise代表降噪，mel band roformer是降噪算法，aufr33代表作者，sdr_27.9959说明在常规数据集测试中sdr得分27.9959
要知道27.9959这可是个恐怖的数字，你看看前面的伴奏分离只有17.几，人声分离只有11.69，混响分离<=10.01,和声才10.47
一般而言sdr到10以上就可以称之为优秀，降噪模型翻了一倍多
虽然没更新但也够用了

吐槽一点：
为啥附件只支持上传小于5M的音频，比github的25M还抠门。如果引用音乐的话又需要自己注册个域名生成外链不划算
我的伴奏分离后差不多60M，就算从flac转换为mp3也有13m。更何况我并不想把一个无损格式的音频转为有损格式，那样会损失音质
现在的歌曲质量稍微好一点的不随便几十上百m吗，作为开源社区的一份子，希望帖子的运营方能够重视附件大小这个问题