
我把同一首 Pixabay 曲目丟進 LALAL.AI、Moises、vocalremover.org、Voice.ai、Fadr、UVR,以及我自己的 AI Stem Splitter。這是戴耳機實測後誠實的比較,外加一份取得乾淨六軌輸出的逐步操作指南。
我做了一款人聲移除器。在我寫下任何一行推論程式碼之前,我花了一個週末,把同一首歌丟進每一款我刷得到信用卡的工具——還有幾款根本不用付費的。
結果跟那些 SEO 文章承諾的完全不一樣。
這是當初我自己也希望存在的那份比較。七款工具、一首曲目、一副耳機,外加一整本記滿抱怨的筆記。
參考曲只用一首:inaya_official 在 Pixabay 上的〈Sunlight〉——無版權,有乾淨的主唱壓在溫暖的襯底音色、鼓、貝斯之上,副歌橋段還有一段鋼琴填充。
我選這首的原因是:橋段的鋼琴是任何分軌器最難處理的部分。如果一款工具自稱「音軌分離器」,卻把鋼琴糊進「其他」這軌裡,我要親耳聽出來。
每一款工具拿到的輸入都一樣:3:14 長的 WAV,44.1 kHz / 16-bit。我戴 Sony MDR-7506 聆聽,遇到只提供 MP3 的工具就做單聲道加總。
我下手不留情。
上傳、付費、下載。它的介面在這份名單裡最乾淨,每軌獨立隔離分頁也設計得相當用心。
但有兩件事咬到我。
免費額度給你10 分鐘,一輩子只能用一次——不是每月 10 分鐘,也不是每首歌 10 分鐘。一次。用完就只能買 credit pack。
而它預設的 2 軌輸出(人聲 vs 伴奏),人聲那軌聽起來怪空洞的。切到他們的「Phoenix」模型才修掉大半,但你得先知道有這個選項。
適合: 想要乾淨介面、不在乎價格的人。 不適合: 任何在決定訂閱前想多測幾首歌的人。
Moises 想當你的練習工作室,不只是分軌器。它有和弦偵測、變調、變速、歌詞同步。
要跟著歌練習,這些很棒。要單純抽出分軌就走人,就是阻力。
免費方案每月只有 5 次分離,每次 2 軌。要拿到 4 軌得升級 Premium,年繳每月 3.99 美元。年中取消還是要繼續付。
Premium 的 5 軌輸出(人聲/鼓/貝斯/鋼琴/其他)相當乾淨。問題在於,你得先夠喜歡 Moises 願意訂閱,才能聽到自己歌曲上的成果。
在 Google 搜「vocal remover」排第一的品牌。我本來期望很高。
上傳即時、處理快速、輸出——還可以而已。就是還可以。
它旗下的 Splitter AI 子產品提供最多 5 軌分離,免費,第一次跑甚至不用註冊。這是它的殺手鐧。品質上明顯是 Spleeter 家族的模型:貝斯有滲音、鼓聽起來有點糊、人聲那軌乾淨到可以拿去家庭卡拉 OK 之夜,但不到可以發表的混音水準。
老實說: 如果你今晚要切一段卡拉 OK 伴奏給家庭聚會用,這就是你要的工具。不用繼續往下讀,去用它。免費、能用、不用登入。
如果你打算把它丟上舞台 loop 或塞進 DAW,繼續往下看。
它的官網首頁直接寫著「市面上最強的 AI 音軌分離器」。
並不是。
人聲隔離還算可以接受。鼓聲軟綿綿、會喘氣。「其他」軌把鋼琴整個吞了——正是我盯著要看的失敗模式。
更意外的是它的工作流。要下載結果我必須安裝它的桌面程式。一款定位成網頁工具的分軌器要這樣搞,對我來說當場破局。
安裝 8 分鐘後我就把它解除安裝了。
Fadr 是這份名單裡唯一首先鎖定製作人與 DJ,再來才照顧一般使用者的工具。16 種軌類型、人聲/貝斯/鼓的 MIDI 匯出、一個 DAW 外掛、一個 /dj 頁面。
免費方案大方到足以實際評估。我那首測試曲的 5 軌輸出,是我聽到第二好的,僅次於下面那些 htdemucs 等級的結果。鋼琴留在鋼琴軌、貝斯留在貝斯軌。
付費版「Plus」一年 50 美元。如果你每週都在用,這是好價錢。
意料之外的注意事項: 16 軌模式其實大多是同一份基底分離的創意切片——電吉他 vs 木吉他 vs 主奏吉他,這類拆法。拿來取樣很有用,但不是真正的 16 路實體分離。
免費。本地跑。開源。不用上傳、不用擔心隱私、不用每月付費。
這是 r/musicproduction 大多數討論串會推薦的選項。也確實該推——前提是你裝得起 Python、把對的模型檔丟進對的資料夾,並且能撐過 macOS 上的 CUDA / MPS 安裝之戰。
但那個「前提」是真的存在。
我在一台全新的 M2 MacBook Air 上花了大約 50 分鐘把 UVR 跑起來。我朋友在 Windows 上花了兩小時,外加一趟 Stack Overflow。我們兩個用的是底層相同的 Demucs htdemucs_ft 模型,結果都拿到漂亮的分軌。
用 UVR,如果: 你要處理數十首曲目、在意隱私、不想按分鐘付費,而且你願意讀安裝文件。
跳過 UVR,如果: 你想在 60 秒內拿到分軌,而且你從沒氣憤地敲過 pip install。
先講清楚:這款是我做的。要跳過這段也行——但你來這裡是為了看比較,我會誠實地說它是什麼、不是什麼。
它跑的是和 UVR 同一個家族的 htdemucs 模型。那是 Meta AI 出的、贏過 Sony Music Demixing Challenge 的模型,也是每一款認真的開源工具會去拿的那一個。我沒有做出「更好的模型」。我做的是一條沒有摩擦地跑那個模型的路徑。
輸出六軌:人聲、鼓、貝斯、吉他、鋼琴、其他。純瀏覽器。下載 WAV。
在測試曲上,它把鋼琴留在鋼琴軌,副歌的人聲沒有可聽見的鼓聲滲音。在常見曲長下,處理在不到 60 秒內完成(Pixabay 那首測試曲 41 秒就跑完)。
它不適合的情境:
你想要操作指南。這是從「我有一首歌」到「我有六軌」的完整路徑。
第 1 步。 前往 aistemsplitter.org。用 Google 登入。你會拿到10 分鐘的免費處理額度——不用信用卡、後台也不會有試用倒數在偷偷跑。
第 2 步。 把音檔拖到上傳區。支援格式:MP3、WAV、FLAC、M4A。每個檔約 100 MB 或 20 分鐘上限。
第 3 步。 選一個分軌模式。4 軌(人聲 / 鼓 / 貝斯 / 其他)比較快,跟多數其他工具給的軌數對得上。6 軌(多加吉他和鋼琴)就是上面我提到的鋼琴問題派得上用場的選項。
第 4 步。 按開始。進度條是即時推進的,不是假動畫從 0 跑到 100。一首 3–4 分鐘的歌,在我們的基礎設施上通常一分鐘內完成。
第 5 步。 完成後,每一軌都有自己的播放器和下載按鈕。你可以單獨播放、靜音、跟原曲 A/B 比對,或一次把六軌打包成 zip 下載 WAV。
到這一步你應該能聽到人聲被完全獨立出來;當你把人聲以外都打開、只靜音人聲,應該完全聽不到人聲。如果不是這樣,寫信到客服信箱告訴我——這就是我們最在乎的失敗模式。
第 6 步(選用)。 免費額度用完了?credit pack 5 美元 50 分鐘(每分鐘 0.10 美元),而且永不過期。沒有訂閱。如果你今年只處理一首歌,這 5 美元只花掉 4 美分。
這是當初我希望能看到的表。
| 工具 | 免費輸出 | 付費門檻 | 軌數 | 格式 | 速度 | 老實說 |
|---|---|---|---|---|---|---|
| LALAL.AI | 一輩子 10 分鐘 | credit pack 起跳約 15 美元 | 最多 10 | WAV / MP3 | 約 1 分鐘 | 介面乾淨,免費額度卻很痛 |
| Moises | 每月 5 首、2 軌 | 年繳每月 3.99 美元 | 付費 5 軌 | 免費 MP3、付費 WAV | 約 1–2 分鐘 | 真會訂閱的人很好用 |
| vocalremover.org | 免費、不用註冊、5 軌 | 會員方案 | 最多 5 | MP3 / WAV | 少於 1 分鐘 | 卡拉 OK 用途最佳免費選 |
| Voice.ai | 要裝 app 才免費 | n/a | 2–4 | 需安裝桌面程式 | 不一定 | 行銷 > 實際 |
| Fadr | 免費額度很大方 | 一年 50 美元 | 16(創意切分) | WAV | 約 1 分鐘 | 製作人最佳選 |
| UVR(本地) | 永久免費 | 免費 | 看模型(通常 6) | WAV | 看你的 GPU | 裝得起來的話,品質第一 |
| AI Stem Splitter | 註冊送 10 分鐘 | 5 美元 50 分鐘、永不過期 | 6(htdemucs) | WAV | 少於 1 分鐘 | 想用 htdemucs 又不想裝環境的偶爾使用者最合適 |
如果你今晚只切一首卡拉 OK 曲、之後再也不做這件事:vocalremover.org。不用繼續看了。
如果你裝得起 Python,而且你會做很多次:UVR。沒有東西打得贏免費又本地。
如果你是住在 DAW 裡的製作人:Fadr 加上那個外掛。
如果你想要六軌、想在一分鐘內拿到、想要 WAV,而且不想訂閱任何東西:AI Stem Splitter 就是我為這個情境做的。
三件事,趁我還沒忘記寫下來:
多數工具在比軌數。 「16 軌」這種行銷話術很好賣。但一個好的 4 軌分離 vs 一個爛的 16 軌分離,品質落差是巨大的。軌數不等於品質。
免費方案才是真正的產品。 我試過的每一個付費方案,都是在賣一種我必須先付錢才聽得到的品質。我真正信任的工具,是那些讓我能在註冊之前,先在自己的歌上聽到輸出的工具。這是我在自己網站上刻意做的選擇,也是這份名單裡每一個競品我最想改掉的一件事。
沒有品質的速度比慢又乾淨更糟。 30 秒做完、但人聲軌還有鼓滲音的分離,是不能用的。90 秒做完、但完全乾淨的分離,是黃金。看清楚他們在比什麼指標。
整本筆記就這些。
那個你能把歌丟進網頁、拿回六軌乾淨分軌、比你打開 DAW 還快的日子,已經到了。只是還沒對每一款工具都平等地到來。


從 SDR 分數、推論成本到實際延遲,比較 htdemucs、BS-RoFormer 與 Spleeter 三大開源音源分離模型——基於 aistemsplitter.org 的生產部署實測資料。


一套實用的工作流程,教你做出「除了你的樂器之外什麼都有」的伴奏帶——涵蓋模型選擇(4 軌 vs 6 軌)、人聲/吉他/貝斯/鼓的個別步驟、哪些歌曲分軌效果不佳,以及如何放慢速度練習。


Step-by-step guide to removing vocals from any song with AI. No software to install, no signup for your first try. Get a clean instrumental in under 90 seconds.
