
一套实用流程,做出「除自己乐器外全套乐队」的伴奏——涵盖模型选择(4 轨 vs 6 轨)、人声/吉他/贝斯/鼓的分步操作、哪些歌分不干净,以及怎么降速。
大多数音乐人的练习日常都有一个明显的缺口:没有乐队。
你可以跟着节拍器把一首歌过一个小时,但只有真正对着鼓、对着贝斯、对着人声去弹,你才能学会怎么把副歌落稳。过去的经典做法是上 iTunes 一首一首买伴奏——几百首歌,每首 1.99 美元,大多还是你根本不想弹的歌的烂混音。
AI 人声分离把这个市场干掉了。现在你可以拿任何一首自己拥有的歌(或者任何 YouTube 链接),几分钟之内把你的乐器抽走。得到的伴奏跟原版录音严丝合缝,因为它就是原版录音减去你这一轨。
这篇文章会走一遍四种常见场景的实战流程——人声、吉他、贝斯、鼓——以及那些这个套路行不通的歌,还有需要降速时怎么办。
每首歌一个音频文件,包含原版完整录音减去你那一轨。丢进手机里的 Spotify、Anytune、便携 looper,或者任何 DAW 里跟弹。
对歌手来说,那就是卡拉 OK 伴奏。对吉他手来说,是去掉吉他的完整乐队。对鼓手来说,是把鼓的位置挖空的歌。同一个思路,去掉不同的音轨。
这是大多数人会搞错的那个决定,代价是整首歌重新跑一遍。
| 你的乐器 | 用这个模型 | 原因 |
|---|---|---|
| 人声(唱歌) | 4 轨(默认) | 4 轨模型对人声分离最干净 |
| 贝斯 | 4 轨(默认) | 贝斯有独立的音轨 |
| 鼓 | 4 轨(默认) | 鼓有独立的音轨 |
| 吉他 | 6 轨 | 不用 6 轨的话,吉他会跟合成器、弦乐一起被塞进「其他」里 |
| 钢琴 | 6 轨 | 同样的原因——钢琴也需要独立音轨 |
| 萨克斯、小提琴、铜管 | 4 轨(接受这个事实) | 没有独立音轨,它们都在「其他」里 |
6 轨模型是我们见得最多的失误。 吉他手习惯性默认选 4 轨,然后纳闷为什么自己的「伴奏」里还有吉他在漏。这不是模型 bug——4 轨模型里压根没有专门的吉他音轨。弹吉他或钢琴就选 6 轨。其他情况选 4 轨,更快,每条音轨也稍微干净一点。
成本两边一样,所以不用为这个纠结。(每次调用的成本计算我们写在这里。)
这是最简单的场景,因为「除人声以外的所有东西」一键就能搞定。
唯一的坑: 如果歌里有你也想去掉的明显和声(披头士那种叠加的和声),卡拉 OK 制作器是去不掉的。公开互联网上没有任何模型能干净地把主唱和和声分开——它们的频率内容重叠太多。换一首歌录音,或者就接受伴奏里留着那些和声。
这就是 6 轨决定派上用场的地方。
结果就是完整乐队减去吉他。任何支持 A-B 循环的播放器里把 solo 段单独 loop 出来,那一句练五十遍。
节奏陷阱: 你会很想顺手把鼓也静音,搞个「更干净」的练习混音。别这么做。大多数音乐人没了鼓做参照就找不到节奏,而且跟着录音弹的全部意义就是学这一句怎么贴着 groove 走。
跟吉他几乎一样,但用 4 轨。
贝斯特有的坑: 用合成贝斯或者重低音的歌,常常会在「贝斯」轨和「其他」之间分得很奇怪。如果你那条贝斯从贝斯文件里消失了,反而在「其他」里隐约听到,那是原始混音把贝斯走了合成器或者用了重侧链。模型层面无解——换首歌,或者把两条音轨叠回去,接受「伴奏」里会有点幽灵贝斯。
同样的流程,去掉不一样的音轨。
鼓特有的坑: 「人声」轨里会有点镲片的高频杂音漏出来(镲片跟齿擦音的人声共享很多高频内容),「其他」轨偶尔会有幽灵小军鼓的伪影。练习的时候这无所谓——你打鼓的音量大到没人能听见这些漏音。但如果你要在伴奏上录鼓,把鼓位以外的所有东西在 ~80 Hz 做高通,漏音就消失了。
这是没人提的另一半。再完美的模型也分不开当初就没按分离思路录的音频。
效果好的:
效果差的:
耳机测试: 用便宜耳机听,如果你能清楚听到每件乐器并叫出名字,模型大概率能分开。如果用便宜耳机听起来就是一堵声墙,模型给你的就是一堵音轨墙。
刚学的时候,原速伴奏基本没用。两种处理方式。
分离之后再降速。 正常跑一遍音轨分离,混出你的伴奏,然后丢进 慢速混响制作器。降速 15% 以内都还行。再往下你就开始能听到镲片上的时间拉伸伪影了。
分离之前先降速。 反直觉地,这样反而经常出来更好的音轨质量。模型处理的是每秒采样密度更低的同一段音频,棘手的瞬态它有更多东西可用。如果默认分离结果糊,可以试这招。
变调用 变调器 处理你最后的伴奏。不要在分离之前变调——变调伪影会搞混模型,你拿到的音轨会更糟。
1. 混音之前不要给每条音轨做归一化。 音轨分离本身就保留了原版混音里的相对音量。如果你在合并之前把每条音轨都归到 0 dB,伴奏里贝斯会突然成了最响的东西——跟原版完全不对。导入原始音轨,所有轨设成 0 dB 增益,导出。
2. 一次性的歌不值得做音轨分离。 音轨分离适合那些你要练五十遍的歌。一首你只会过两遍的歌,直接跟着原版弹,音量调到能听见自己就行。「5 分钟处理 + 30 秒混音」的账,只有在多次练习里才能回本。
3. 如果源音频本身听起来糟,别相信第一次分离的结果。 码率很关键。一段 128 kbps 的 YouTube 抓取出来的分离效果,会明显差于 320 kbps 的 MP3 或者无损文件。如果结果听起来不对,先查源头——低码率源头能榨出来的质量是有上限的。
典型流程的活跃时间大概三分钟:
总计:从「我想练这首歌」到「伴奏在我手机里」,不到 5 分钟。
如果你只需要去掉人声,卡拉 OK 制作器 完全跳过手动混音那一步。其他情况,往 Audacity 里拖一下就是全部工作。
结论: 模型是最容易的部分。给你的乐器挑对模型、挑一首录制时就考虑了清晰分离的歌,这两个决定决定了你接下来一小时是在练习还是在排查问题。
如果你想试试,又不想搭本地工具链,AI Stem Splitter 前几分钟音频免费。
