图文识谱 音乐转谱 音轨分离 MIDI转五线谱 MIDI转MusicXML MusicXML转五线谱 MusicXML转MIDI 音频转换 M4A转MP3 FLAC转MP3 WAV转MP3 WMA转MP3 OGG转MP3 AAC转MP3 AMR转MP3 MP3转换 MP3转M4A MP3转OGG MP3转WAV MP3转FLAC MP3转AMR AAC转M4A WMA转M4A M4A转WAV OGG转换
{{userInfo && userInfo.isVip ? '续费会员' : '开通会员'}}
登录/注册
{{userInfo.nickname}}
普通用户
VIP会员
ID: {{userInfo.id}}
单次上传不超过12个
不限文件大小
剩余次数:{{userInfo ? userInfo.max_download : 0}}
开通会员享无限制转换
到期时间:{{userInfo.vipDate}}
续费会员
开通会员
退出登录
菜单导航
音频转换 实操教程 常见问题 技术解析

将一首完整的歌曲分离成“纯人声”和“纯伴奏”

你是否好奇过:为什么一个在线工具能一键将一首完整的歌曲分离“纯人声”和“纯伴奏”?甚至进一步分离出“鼓点”“贝斯”“钢琴”等独立音轨?这背后是音乐源分离(MSSMusic Source Separation)技术,主要依赖于深度神经网络对混合音频中的不同声源进行建模和提取。

音频分离.png

一、问题本质:从“鸡尾酒会效应”到频谱掩蔽

想象你在一个嘈杂的派对上(混合音频),你想只听到一个人说话(目标声源)。人脑能轻松做到,但机器面临两个难题:

频谱重叠:人声和鼓声可能占用相同的频率范围(例如人声基频和军鼓的共振峰重叠)。

时序相关性:乐器之间不是独立发声,而是相互配合形成和声。

传统方法(如傅里叶变换+滤波)只能分离频率不重叠的简单声音,无法处理复杂的流行音乐。深度学习的突破在于:让神经网络学习从混合频谱到各个声源频谱的映射函数。

二、主流模型:U-NetDemucsHybrid Transformer

当前最先进的音轨分离模型(许多在线工具使用)基于以下几种架构:

1. U-Net(卷积编码-解码器)

编码器:对混合音频的短时傅里叶变换(STFT)频谱图进行下采样,提取高层次特征(比如“人声的颤音特征”)。

解码器:上采样并输出一个掩码(Mask)——一个01之间的矩阵,乘以原始频谱,就能得到该声源的频谱。

优点:能够保留局部结构(如音符起振的瞬态特征)。

2. DemucsFacebook Research

结合了卷积层(捕获局部模式)和循环层(捕获时间依赖),并在时域直接处理波形,而非频谱。

引入了混合分支:同时使用时域和频域信息,分离质量更高,但对算力要求也更高。

3. Hybrid Transformer

利用Transformer的自注意力机制,捕捉音乐中长距离的依赖关系(比如前奏的鼓点模式与副歌的鼓点模式相似)。

MUSDB18等公开数据集上,信噪比(SDR)已经超过10dB,接近专业音频处理水平。

三、训练数据与“乐器盲分离”

模型需要海量的“混合-干声”配对数据进行监督学习。例如:

混合音频 = 人声干声 + 鼓干声 + 贝斯干声 + 其他干声

训练时,模型输入混合音频,输出预测的每个干声,与真实干声计算损失(如L1损失或感知损失)。

得益于MUSDB18MixingSecrets等开源数据集,现在的模型已经能够实现乐器盲分离——即使没有提前知道歌曲中有哪些乐器,也能大致分离出“鼓”“贝斯”“人声”“钢琴”等常见类别。

四、为什么音轨分离无法做到100%完美?

你可能会发现:分离后的伴奏中偶尔残留微弱的“幽灵人声”,或者人声音轨里能听到模糊的鼓点。原因是:

信息理论限制:混合音频是一个“降维”信号,多个声源叠加后,原始信息不可逆地丢失。分离本质上是一个估计问题,而非完美还原。

相位抵消:当人声和贝斯在同一频段反相叠加时,模型难以判断能量归属。

但实际应用中,80-90%的分离质量已足以制作伴奏带、提取人声用于翻唱混音,或者将MIDI旋律与分离后的鼓点重新编曲。

 


我们的优势
全能音乐工具箱
佐音平台集图文识谱、音乐转五线谱、音轨分离、MIDI转换、MusicXML转换、音频格式转换于一体。一站式解决音乐创作、学习和制作中的各类需求,让音乐处理变得简单高效。
AI智能识别
采用先进的人工智能技术,精准识别乐谱图片、音频中的音符信息,自动转换为可编辑的MIDI、MusicXML格式。无需手动输入,大幅提升音乐数字化效率。
云端处理,随时随地
所有转换和识别都在云端进行,不占用本地资源。只要有网络连接,就能随时随地处理音乐文件。支持批量上传和转换,让工作效率倍增。
专业音轨分离
智能分离人声、鼓点、贝斯、钢琴等音轨,支持多种分离模式。无论是制作伴奏、提取人声还是音乐学习分析,都能轻松实现专业级效果。
安全保障
我们将立即删除已上传的文件,并在24小时后删除已转换的文件。任何人都无法访问您的文件,我们可确保您的隐私100%安全。您上传的文件我们不会查看、备份或分享。
全平台支持
佐音基于浏览器运行,支持Mac、Windows、Linux等平台。无需下载安装任何软件,打开浏览器即可使用全部功能,让音乐创作不受设备限制。
图片压缩三步完成
第1步
上传图片
在图片添加区域选择您的图片文件上传
第2步
选择参数设置
根据预期需求设置图片修改的参数,点击“开始压缩”
第3步
下载图片
点击“下载全部”按钮即可保存压缩好的图片
使用帮助
音频转换最新内容 >>
乐谱图片识别现在到底发展到什么程度了?很多人试过之后才发现已经不想再手动录谱了
MIDI转换器现在为什么越来越多人在用?
五线谱转MIDI为什么越来越多人开始用?以前录谱半天,现在几分钟就能完成
音轨分离方法为什么突然变得这么重要?很多人其实低估了它的用途
拍一张乐谱就能播放的软件:AI让纸质乐谱“活”起来
音频转换推荐内容 >>
乐谱图片识别现在到底发展到什么程度了?很多人试过之后才发现已经不想再手动录谱了
MIDI转换器现在为什么越来越多人在用?
五线谱转MIDI为什么越来越多人开始用?以前录谱半天,现在几分钟就能完成
音轨分离方法为什么突然变得这么重要?很多人其实低估了它的用途
拍一张乐谱就能播放的软件:AI让纸质乐谱“活”起来
音频转换随机内容 >>
乐谱转MIDI怎么弄?5分钟学会转换技巧
MP3转换成OGG怎么操作?推荐六个实用且快捷的方法
转换音频格式用什么软件?四款值得手动尝试且效果好的软件
FLAC转MP3用什么方法快捷?介绍七个超方便的执行方法
如何将AMR改成MP3格式?介绍七个实测方便实用的方法
{{item.title}}
{{item.price}} /次
{{item.to_long}}
限时促销
微信支付 支付宝支付
应付金额: ¥{{vipList.length ? vipList[vipSelectIndex].price : ''}}
请使用微信/支付宝扫码支付
用户Wechat***33 12分钟前购买了 月度VIP
用户Wechat***83 14分钟前购买了 季度VIP
用户Wechat***66 11分钟前购买了 季度VIP
用户Wechat***78 02分钟前购买了 月度VIP
用户Wechat***23 11分钟前购买了 季度VIP
用户Wechat***50 72分钟前购买了 月度VIP
用户Wechat***44 90分钟前购买了 月度VIP
购买须知
购买后在用户中心查看对应的权益
按需购买适用的套餐,可选择微信或支付宝支付
还在犹豫?先体验一下
{{activityData.title}} ¥{{activityData.price}}
限时特价促销
极致性价比
有效期{{activityData.to_long}}天
扫码立即开通
微信支付 支付宝支付
扫码支付
放弃机会