
一套實用的工作流程,教你做出「除了你的樂器之外什麼都有」的伴奏帶——涵蓋模型選擇(4 軌 vs 6 軌)、人聲/吉他/貝斯/鼓的個別步驟、哪些歌曲分軌效果不佳,以及如何放慢速度練習。
大多數樂手的練習日常都有一個明顯的缺口:沒有樂團。
你可以對著節拍器把一首歌跑一個小時,但要等到實際對著真正的鼓、真正的貝斯、真正的人聲一起彈,才學得會怎麼把副歌穩穩送進去。以前的解法是去 iTunes 一首一首買伴奏帶——幾百首,每首 1.99 美元,大多還是你根本不想彈的歌、被混得很糟的版本。
AI 音軌分離直接幹掉了這個市場。現在你可以拿任何一首你擁有的歌(或任何一條 YouTube 連結),在幾分鐘內把你自己那項樂器抽掉。做出來的伴奏帶會完全貼合原始錄音,因為它就是原始錄音減去你而已。
這篇文章會帶你走過四種常見情境的實作流程——人聲、吉他、貝斯、鼓——再加上這招行不通的那些歌、以及需要放慢速度時該怎麼處理。
每首歌一個音訊檔,裡面是完整的原版錄音減掉你的樂器。把它丟進手機的 Spotify、Anytune、隨身 looper,或任何 DAW,然後跟著彈。
對主唱來說,那就是卡拉 OK 的伴奏。對吉他手來說,是少了吉他的整個樂團。對鼓手來說,是中間挖了一個鼓位空缺的歌。同一套邏輯,差別只在抽掉哪一軌。
這是大多數人會搞錯的關鍵決策,搞錯就得整首重跑一次。
| 你的樂器 | 用這個模型 | 為什麼 |
|---|---|---|
| 人聲(唱歌) | 4 軌(預設) | 4 軌模型的人聲分得最乾淨 |
| 貝斯 | 4 軌(預設) | 貝斯有自己的獨立音軌 |
| 鼓 | 4 軌(預設) | 鼓有自己的獨立音軌 |
| 吉他 | 6 軌 | 不用 6 軌的話,吉他會被丟進「other」裡跟合成器、弦樂混在一起 |
| 鋼琴 | 6 軌 | 同樣的原因——鋼琴需要自己的獨立音軌 |
| 薩克斯風、小提琴、銅管 | 4 軌(接受現實) | 沒有專屬音軌,這些樂器只能待在「other」裡 |
6 軌模型是我們最常看到大家踩的坑。 吉他手習慣性選 4 軌,然後納悶為什麼自己做出來的「伴奏帶」還是有吉他聲漏出來。這不是模型的 bug——4 軌模型裡根本就沒有專屬吉他軌。如果你彈吉他或鋼琴就選 6 軌,其他情況選 4 軌;4 軌比較快,每一軌的分離也稍微乾淨一點。
兩種模型成本相同,所以不用為了省錢去糾結這個。(每次呼叫的成本算式我們在這裡寫過。)
這是最簡單的情境,因為「除了人聲之外的全部」只要點一下就好。
唯一的小陷阱: 如果歌曲裡有你也想去掉的明顯和聲(Beatles 那種疊起來的和聲),karaoke maker 會保留那些和聲。網路上沒有任何公開模型可以乾淨地把主唱和和聲分開——它們共享太多頻率內容。換一個錄音,不然就接受你的伴奏帶裡會有和聲存在。
這裡 6 軌的決策就很重要了。
成品就是少了吉他的整個樂團。在任何支援 A-B repeat 的播放器裡 loop 住 solo 段落,把那個 lick 練個五十次。
節奏陷阱: 你可能會手癢想把鼓也靜音,做出「更乾淨」的練習混音。別這樣。大多數樂手沒有鼓當參考就會抓不到節奏,而跟著原始錄音彈的整個重點,就是要學會你的聲部要怎麼坐進那個 groove 裡。
幾乎跟吉他一模一樣,只是用 4 軌。
貝斯專屬的坑: 有合成貝斯或重 sub-bass 的歌,常常會在「bass」軌和「other」軌之間被切得很怪。如果你的 bassline 從 bass 檔裡消失了,卻在 other 裡淡淡地出現,那是因為原始混音把貝斯接上了合成器或用了重 sidechain。這在模型層級沒辦法修——換首歌,或者把兩軌疊回去,接受你的「伴奏」帶裡會有 ghost bass。
同樣的流程,換一個音軌丟掉。
鼓專屬的坑: 「人聲」軌會有微弱的鈸聲漏出來(鈸跟齒音人聲共用很多高頻內容),而「other」軌偶爾會有 ghost-snare 的雜訊殘留。練習用的話無所謂——你打得夠大聲,沒人聽得到那點漏音。如果你要把鼓錄進伴奏帶裡,把鼓位以外的所有軌道都用 ~80 Hz 高通濾掉,漏音就會消失。
這是大家都不講的另一半。再完美的模型,也分不了當初錄音時就沒打算分軌的音訊。
效果好:
效果差:
耳機測試: 如果你用便宜耳機就能清楚聽出每樣樂器在哪、叫得出名字,模型大概也分得開。如果在便宜耳機裡聽起來就是一面 wall of sound,模型也只會給你一面 wall of stems。
原速的伴奏帶在你還在學的時候通常不太實用。兩種處理方式。
分軌之後再放慢。 正常跑一次音軌分離,把你的伴奏帶混好,然後丟進 slowed + reverb maker。在 15% 以內的減速都還能用。超過這個範圍就會開始聽到鈸上的 time-stretch 雜訊。
分軌之前先放慢。 反直覺地,這常常會讓分軌品質更好。模型在同一段音訊上用更低的每秒取樣密度去處理,遇到棘手的瞬態時就有更多東西可以分析。如果某首歌預設分出來很糊,試試這招。
要變調的話,把 pitch changer 用在你最終的伴奏帶上。不要在分軌之前變調——pitch-shift 的雜訊會干擾模型,最後拿到更糟的音軌。
1. 不要在混音之前正規化每個音軌。 音軌分離本來就已經保留了原始混音的相對音量。如果你在合起來之前把每一軌都 normalize 到 0 dB,做出來的伴奏帶會突然變成貝斯最大聲——對著原版錄音完全不對。匯入原始的音軌,所有軌道增益都設 0 dB,匯出。
2. 一次性使用的話不必特別分軌。 音軌分離適合那些你會練 50 次的歌。一首你只會彈過兩次的歌,直接跟著原版彈、把音量調到你聽得見自己的程度就好。「5 分鐘處理 + 30 秒混音」的時間成本只有在多次練習中才划算。
3. 如果來源音訊本身聽起來就爛,不要相信第一次的分軌結果。 位元率有差。一段 128 kbps 的 YouTube rip 分出來會明顯比 320 kbps MP3 或無損檔案差。如果結果聽起來怪怪的,先檢查來源——你能從低位元率來源裡榨出的品質有實實在在的上限。
一個典型的工作流程主動花的時間大概三分鐘:
總計:從「我想練這首歌」到「伴奏帶已經在手機上」不到 5 分鐘。
如果你只需要把人聲拿掉,karaoke maker 完全省掉手動混音那一步。除此之外,把檔案一拖一放進 Audacity 就是整個工作了。
重點整理: 模型本身才是最簡單的部分。為你的樂器挑對模型,以及挑一首當初錄音時就有乾淨分離的歌,這兩個決策才是決定接下來一小時你是在練琴還是在排錯的關鍵。
如果你想在不架設本地工具鏈的情況下試試看,AI Stem Splitter 對最前面幾分鐘的音訊是免費的。
