如何用 AI Stem Splitter 制作练习伴奏

大多数音乐人的练习日常都有一个明显的缺口：没有乐队。

你可以跟着节拍器把一首歌过一个小时，但只有真正对着鼓、对着贝斯、对着人声去弹，你才能学会怎么把副歌落稳。过去的经典做法是上 iTunes 一首一首买伴奏——几百首歌，每首 1.99 美元，大多还是你根本不想弹的歌的烂混音。

AI 人声分离把这个市场干掉了。现在你可以拿任何一首自己拥有的歌（或者任何 YouTube 链接），几分钟之内把你的乐器抽走。得到的伴奏跟原版录音严丝合缝，因为它就是原版录音减去你这一轨。

这篇文章会走一遍四种常见场景的实战流程——人声、吉他、贝斯、鼓——以及那些这个套路行不通的歌，还有需要降速时怎么办。

你最终会拿到什么

每首歌一个音频文件，包含原版完整录音减去你那一轨。丢进手机里的 Spotify、Anytune、便携 looper，或者任何 DAW 里跟弹。

对歌手来说，那就是卡拉 OK 伴奏。对吉他手来说，是去掉吉他的完整乐队。对鼓手来说，是把鼓的位置挖空的歌。同一个思路，去掉不同的音轨。

先把模型选对

这是大多数人会搞错的那个决定，代价是整首歌重新跑一遍。

你的乐器	用这个模型	原因
人声（唱歌）	4 轨（默认）	4 轨模型对人声分离最干净
贝斯	4 轨（默认）	贝斯有独立的音轨
鼓	4 轨（默认）	鼓有独立的音轨
吉他	6 轨	不用 6 轨的话，吉他会跟合成器、弦乐一起被塞进「其他」里
钢琴	6 轨	同样的原因——钢琴也需要独立音轨
萨克斯、小提琴、铜管	4 轨（接受这个事实）	没有独立音轨，它们都在「其他」里

6 轨模型是我们见得最多的失误。 吉他手习惯性默认选 4 轨，然后纳闷为什么自己的「伴奏」里还有吉他在漏。这不是模型 bug——4 轨模型里压根没有专门的吉他音轨。弹吉他或钢琴就选 6 轨。其他情况选 4 轨，更快，每条音轨也稍微干净一点。

成本两边一样，所以不用为这个纠结。(每次调用的成本计算我们写在这里。)

流程：练唱

这是最简单的场景，因为「除人声以外的所有东西」一键就能搞定。

挑一首歌。 制作干净的就行。避开现场录音（什么都在串音）和那些主唱被叠加、严重 auto-tune 或者被混响埋掉的歌。
跳过音轨分离，直接用卡拉 OK 制作器。 这就是这套流程的一键「给我伴奏版」。
等大约 60 秒。 一首 3 分钟的歌端到端差不多就这个时间。
下载伴奏文件。 那已经是鼓 + 贝斯 + 其他混好的一轨了。丢进手机。搞定。

唯一的坑： 如果歌里有你也想去掉的明显和声（披头士那种叠加的和声），卡拉 OK 制作器是去不掉的。公开互联网上没有任何模型能干净地把主唱和和声分开——它们的频率内容重叠太多。换一首歌录音，或者就接受伴奏里留着那些和声。

流程：练吉他

这就是 6 轨决定派上用场的地方。

挑歌。 只有一轨清楚录下的吉他效果最好——干净音色、左右声道分得清。叠了五轨吉他的歌（大部分金属、不少现代流行）对任何模型都是硬骨头。
打开 AI Stem Splitter 选 6 轨。 上传文件或者粘 YouTube 链接。
等 2-3 分钟处理。
下载除吉他以外的所有音轨。 你会拿到六个文件：人声、鼓、贝斯、吉他、钢琴、其他。留五个，跳过吉他。
把它们混回一个文件。 把这五条音轨拖进 Audacity（免费）或者任何 DAW。所有音轨都设成 0 dB。导出 MP3。

结果就是完整乐队减去吉他。任何支持 A-B 循环的播放器里把 solo 段单独 loop 出来，那一句练五十遍。

节奏陷阱： 你会很想顺手把鼓也静音，搞个「更干净」的练习混音。别这么做。大多数音乐人没了鼓做参照就找不到节奏，而且跟着录音弹的全部意义就是学这一句怎么贴着 groove 走。

流程：练贝斯

跟吉他几乎一样，但用 4 轨。

把歌上传到 AI Stem Splitter，选 4 轨。
等大约 60 秒。
下载人声 + 鼓 + 其他。 跳过贝斯轨。
在 Audacity 里混回一起。导出。

贝斯特有的坑： 用合成贝斯或者重低音的歌，常常会在「贝斯」轨和「其他」之间分得很奇怪。如果你那条贝斯从贝斯文件里消失了，反而在「其他」里隐约听到，那是原始混音把贝斯走了合成器或者用了重侧链。模型层面无解——换首歌，或者把两条音轨叠回去，接受「伴奏」里会有点幽灵贝斯。

流程：练鼓

同样的流程，去掉不一样的音轨。

上传到 AI Stem Splitter，选 4 轨。
下载人声 + 贝斯 + 其他。 跳过鼓轨。
混回一个文件。

鼓特有的坑： 「人声」轨里会有点镲片的高频杂音漏出来（镲片跟齿擦音的人声共享很多高频内容），「其他」轨偶尔会有幽灵小军鼓的伪影。练习的时候这无所谓——你打鼓的音量大到没人能听见这些漏音。但如果你要在伴奏上录鼓，把鼓位以外的所有东西在 ~80 Hz 做高通，漏音就消失了。

哪些歌行，哪些歌不行

这是没人提的另一半。再完美的模型也分不开当初就没按分离思路录的音频。

效果好的：

经典摇滚（66 年后的披头士、CCR、Tom Petty、Springsteen）
乡村乐，基本通杀——人声永远在最前面
民谣 / 创作型歌手
制作干净的现代流行（大部分 2010 年后的歌）
小编制的爵士标准曲

效果差的：

重 shoegaze 和 lo-fi（故意做成糊的）
重度 auto-tune 主唱 + 加了效果的和声叠唱
现场录音（什么都串进什么里）
重并联 / 总线压缩的歌
1965 年前的单声道混音
叠了一堵吉他墙的重金属

耳机测试： 用便宜耳机听，如果你能清楚听到每件乐器并叫出名字，模型大概率能分开。如果用便宜耳机听起来就是一堵声墙，模型给你的就是一堵音轨墙。

降速或者变调

刚学的时候，原速伴奏基本没用。两种处理方式。

分离之后再降速。 正常跑一遍音轨分离，混出你的伴奏，然后丢进慢速混响制作器。降速 15% 以内都还行。再往下你就开始能听到镲片上的时间拉伸伪影了。

分离之前先降速。 反直觉地，这样反而经常出来更好的音轨质量。模型处理的是每秒采样密度更低的同一段音频，棘手的瞬态它有更多东西可用。如果默认分离结果糊，可以试这招。

变调用变调器处理你最后的伴奏。不要在分离之前变调——变调伪影会搞混模型，你拿到的音轨会更糟。

三个值得知道的坑

1. 混音之前不要给每条音轨做归一化。 音轨分离本身就保留了原版混音里的相对音量。如果你在合并之前把每条音轨都归到 0 dB，伴奏里贝斯会突然成了最响的东西——跟原版完全不对。导入原始音轨，所有轨设成 0 dB 增益，导出。

2. 一次性的歌不值得做音轨分离。 音轨分离适合那些你要练五十遍的歌。一首你只会过两遍的歌，直接跟着原版弹，音量调到能听见自己就行。「5 分钟处理 + 30 秒混音」的账，只有在多次练习里才能回本。

3. 如果源音频本身听起来糟，别相信第一次分离的结果。 码率很关键。一段 128 kbps 的 YouTube 抓取出来的分离效果，会明显差于 320 kbps 的 MP3 或者无损文件。如果结果听起来不对，先查源头——低码率源头能榨出来的质量是有上限的。

实际操作大概什么样

典型流程的活跃时间大概三分钟：

30 秒上传歌曲、选模型
1-3 分钟处理（你啥也不用干）
30 秒下载并在 Audacity 里合并

总计：从「我想练这首歌」到「伴奏在我手机里」，不到 5 分钟。

如果你只需要去掉人声，卡拉 OK 制作器完全跳过手动混音那一步。其他情况，往 Audacity 里拖一下就是全部工作。

结论： 模型是最容易的部分。给你的乐器挑对模型、挑一首录制时就考虑了清晰分离的歌，这两个决定决定了你接下来一小时是在练习还是在排查问题。

如果你想试试，又不想搭本地工具链，AI Stem Splitter 前几分钟音频免费。

大多数音乐人的练习日常都有一个明显的缺口：没有乐队。

这篇文章会走一遍四种常见场景的实战流程——人声、吉他、贝斯、鼓——以及那些这个套路行不通的歌，还有需要降速时怎么办。

你最终会拿到什么

每首歌一个音频文件，包含原版完整录音减去你那一轨。丢进手机里的 Spotify、Anytune、便携 looper，或者任何 DAW 里跟弹。

对歌手来说，那就是卡拉 OK 伴奏。对吉他手来说，是去掉吉他的完整乐队。对鼓手来说，是把鼓的位置挖空的歌。同一个思路，去掉不同的音轨。

先把模型选对

这是大多数人会搞错的那个决定，代价是整首歌重新跑一遍。

你的乐器	用这个模型	原因
人声（唱歌）	4 轨（默认）	4 轨模型对人声分离最干净
贝斯	4 轨（默认）	贝斯有独立的音轨
鼓	4 轨（默认）	鼓有独立的音轨
吉他	6 轨	不用 6 轨的话，吉他会跟合成器、弦乐一起被塞进「其他」里
钢琴	6 轨	同样的原因——钢琴也需要独立音轨
萨克斯、小提琴、铜管	4 轨（接受这个事实）	没有独立音轨，它们都在「其他」里

成本两边一样，所以不用为这个纠结。(每次调用的成本计算我们写在这里。)

流程：练唱

这是最简单的场景，因为「除人声以外的所有东西」一键就能搞定。

挑一首歌。 制作干净的就行。避开现场录音（什么都在串音）和那些主唱被叠加、严重 auto-tune 或者被混响埋掉的歌。
跳过音轨分离，直接用卡拉 OK 制作器。 这就是这套流程的一键「给我伴奏版」。
等大约 60 秒。 一首 3 分钟的歌端到端差不多就这个时间。
下载伴奏文件。 那已经是鼓 + 贝斯 + 其他混好的一轨了。丢进手机。搞定。

流程：练吉他

这就是 6 轨决定派上用场的地方。

挑歌。 只有一轨清楚录下的吉他效果最好——干净音色、左右声道分得清。叠了五轨吉他的歌（大部分金属、不少现代流行）对任何模型都是硬骨头。
打开 AI Stem Splitter 选 6 轨。 上传文件或者粘 YouTube 链接。
等 2-3 分钟处理。
下载除吉他以外的所有音轨。 你会拿到六个文件：人声、鼓、贝斯、吉他、钢琴、其他。留五个，跳过吉他。
把它们混回一个文件。 把这五条音轨拖进 Audacity（免费）或者任何 DAW。所有音轨都设成 0 dB。导出 MP3。

结果就是完整乐队减去吉他。任何支持 A-B 循环的播放器里把 solo 段单独 loop 出来，那一句练五十遍。

流程：练贝斯

跟吉他几乎一样，但用 4 轨。

把歌上传到 AI Stem Splitter，选 4 轨。
等大约 60 秒。
下载人声 + 鼓 + 其他。 跳过贝斯轨。
在 Audacity 里混回一起。导出。

流程：练鼓

同样的流程，去掉不一样的音轨。

上传到 AI Stem Splitter，选 4 轨。
下载人声 + 贝斯 + 其他。 跳过鼓轨。
混回一个文件。

哪些歌行，哪些歌不行

这是没人提的另一半。再完美的模型也分不开当初就没按分离思路录的音频。

效果好的：

经典摇滚（66 年后的披头士、CCR、Tom Petty、Springsteen）
乡村乐，基本通杀——人声永远在最前面
民谣 / 创作型歌手
制作干净的现代流行（大部分 2010 年后的歌）
小编制的爵士标准曲

效果差的：

重 shoegaze 和 lo-fi（故意做成糊的）
重度 auto-tune 主唱 + 加了效果的和声叠唱
现场录音（什么都串进什么里）
重并联 / 总线压缩的歌
1965 年前的单声道混音
叠了一堵吉他墙的重金属

降速或者变调

刚学的时候，原速伴奏基本没用。两种处理方式。

变调用变调器处理你最后的伴奏。不要在分离之前变调——变调伪影会搞混模型，你拿到的音轨会更糟。

三个值得知道的坑

实际操作大概什么样

典型流程的活跃时间大概三分钟：

30 秒上传歌曲、选模型
1-3 分钟处理（你啥也不用干）
30 秒下载并在 Audacity 里合并

总计：从「我想练这首歌」到「伴奏在我手机里」，不到 5 分钟。

如果你只需要去掉人声，卡拉 OK 制作器完全跳过手动混音那一步。其他情况，往 Audacity 里拖一下就是全部工作。

如果你想试试，又不想搭本地工具链，AI Stem Splitter 前几分钟音频免费。

你最终会拿到什么

先把模型选对

流程：练唱

流程：练吉他

流程：练贝斯

流程：练鼓

哪些歌行，哪些歌不行

降速或者变调

三个值得知道的坑

实际操作大概什么样

作者

分类

更多文章

htdemucs vs BS-RoFormer vs Spleeter：2026 年音源分离基准评测

最佳人声去除工具横评：我用同一首歌实测了 7 款

How to Remove Vocals from Any Song: A Beginner's Step-by-Step Guide (2026)

如何用 AI Stem Splitter 制作练习伴奏

你最终会拿到什么

先把模型选对

流程：练唱

流程：练吉他

流程：练贝斯

流程：练鼓

哪些歌行，哪些歌不行

降速或者变调

三个值得知道的坑

实际操作大概什么样

作者

分类

更多文章

htdemucs vs BS-RoFormer vs Spleeter：2026 年音源分离基准评测

最佳人声去除工具横评：我用同一首歌实测了 7 款

How to Remove Vocals from Any Song: A Beginner's Step-by-Step Guide (2026)