AI Stem Splitter でバッキングトラックを作って練習する方法

ほとんどのミュージシャンの練習ルーティンには、明らかに欠けているものがあります。バンドがいないことです。

1 時間メトロノームに合わせて曲を弾き続けることはできますが、実際のドラム、実際のベース、実際のボーカルと一緒に演奏しない限り、サビをきっちり決める感覚は身につきません。昔ながらの答えは、iTunes でバッキングトラックを 1 曲ずつ購入することでした。数百曲が 1 曲 1.99 ドル、そのほとんどは弾きたくもない曲のひどいミックスです。

AI による音源分離がその市場を消滅させました。今では、自分が持っているどんな曲でも（あるいは YouTube のリンクでも）、数分で自分の楽器を取り除けます。出来上がるバッキングトラックは原曲にぴったり合います。なぜなら、それは原曲から自分の楽器を引いたものそのものだからです。

この記事では、よくある 4 つのケース（ボーカル、ギター、ベース、ドラム）に加えて、うまくいかない曲、そしてテンポを落としたいときの対処法について、実践的なワークフローを解説します。

最終的に手に入るもの

1 曲につき、原曲のフルレコーディングから自分の楽器を抜いた音声ファイルが 1 つ。スマホの Spotify、Anytune、ポータブルルーパー、あるいは任意の DAW に入れるだけです。あとは一緒に演奏するだけ。

シンガーにとっては、これはカラオケのインストゥルメンタルです。ギタリストにとっては、ギター抜きのフルバンド。ドラマーにとっては、自分のキットがあるべき場所にぽっかり穴が空いた曲。考え方は同じで、抜くステムが違うだけです。

まずは正しいモデルを選ぶ

これは、ほとんどの人が間違える唯一の判断であり、間違えると丸ごと再レンダリングするはめになります。

あなたの楽器	使うモデル	理由
ボーカル（歌）	4 ステム（デフォルト）	4 ステムモデルではボーカルが最もきれいに分離される
ベース	4 ステム（デフォルト）	ベースには専用のステムがある
ドラム	4 ステム（デフォルト）	ドラムには専用のステムがある
ギター	6 ステム	6 ステムを使わないと、ギターはシンセや弦と一緒に「other」に放り込まれる
ピアノ	6 ステム	同じ理由 — ピアノにも専用のステムが必要
サックス、バイオリン、ブラス	4 ステム（あきらめる）	専用ステムは存在しない。すべて「other」に入る

6 ステムモデルの選択ミスは、私たちが最もよく目にする間違いです。 ギタリストは習慣的に 4 ステムを選んでしまい、自分の「インストゥルメンタル」バッキングトラックにギターが漏れているのを見て首をかしげます。これはモデルのバグではありません。4 ステムモデルには専用のギターステムが存在しないのです。ギターかピアノを弾くなら 6 ステムを選びましょう。それ以外なら 4 ステム。こちらの方が速く、ステムごとの分離もわずかにきれいです。

どちらを選んでもコストは同じなので、それで最適化する必要はありません。（呼び出しあたりのコスト計算はこの記事にまとめました。）

ワークフロー：歌の練習

これが最もシンプルなケースです。なぜなら「ボーカル以外すべて」はワンクリックで済むからです。

曲を選ぶ。 クリーンなプロダクションのものなら何でも。ライブ録音（あらゆる音が漏れる）や、リードボーカルがダブリングされていたり、強くオートチューンされていたり、リバーブに埋もれている曲は避けましょう。
ステム分離はスキップして、代わりに karaoke maker を使う。 これは、まさにこのワークフローを「インストゥルメンタルください」のワンクリック版にしたものです。
約 60 秒待つ。 3 分の曲なら、おおむねその時間でエンドツーエンドに処理されます。
インストゥルメンタルファイルをダウンロードする。 ドラム + ベース + other がすでにミックスダウンされた状態のものです。スマホに入れて完了。

唯一のコツ： 曲に目立つバッキングボーカル（ビートルズ風の重ねたハーモニー）もあって、それも取り除きたい場合、karaoke maker はそれを残します。リードボーカルとバッキングボーカルをきれいに分離できるモデルは、公開インターネット上には存在しません。両者は周波数成分を共有しすぎているからです。別の録音を選ぶか、インストゥルメンタルにバッキングボーカルが残ることを受け入れましょう。

ワークフロー：ギター練習

ここで 6 ステムの判断が効いてきます。

曲を選ぶ。 クリーンに録音されたギターが 1 本だけ入っている曲が最も向いています。クリーンなトーン、よく分離されたチャンネル。5 重に重ねたギタートラックを持つ曲（メタルの多く、モダンポップの多く）は、どんなモデルにとっても難しいケースです。
AI Stem Splitter を開いて 6 ステムを選ぶ。 ファイルをアップロードするか、YouTube の URL を貼り付けます。
2 〜 3 分待ちます。
ギター以外のすべてのステムをダウンロードする。 vocals、drums、bass、guitar、piano、other の 6 ファイルが手に入ります。5 つを残し、guitar はスキップ。
それらを 1 つのファイルにミックスし直す。 5 つのステムを Audacity（無料）または任意の DAW にドラッグします。すべてのトラックを 0 dB に設定。MP3 として書き出します。

結果として、ギター抜きのフルバンドが手に入ります。A-B repeat に対応する任意の音声プレーヤーでソロセクションをループ再生し、そのリックを 50 回練習しましょう。

タイミングの罠： よりクリーンな練習ミックスにしようとして、ドラムもミュートしたくなります。やめておきましょう。ほとんどのミュージシャンはドラムがリファレンスとして無いとタイミングを失います。そして、原曲に合わせて演奏する目的そのものが、自分のパートがグルーヴに対してどう収まるかを学ぶことなのです。

ワークフロー：ベース練習

ギターとほぼ同じですが、4 ステムを使います。

曲を AI Stem Splitter にアップロードし、4 ステムを選びます。
約 60 秒待ちます。
vocals + drums + other をダウンロードします。 bass ステムはスキップ。
Audacity でそれらをミックスし直し、書き出します。

ベース特有の落とし穴： シンセベースや重いサブベースを持つ曲では、「bass」ステムと「other」の間で分離が中途半端になることがよくあります。ベースラインが bass ファイルから消えて「other」の中にうっすら現れる場合、原曲のミックスでベースをシンセ経由でルーティングしていたり、強くサイドチェインをかけていた可能性があります。モデルレベルでは修正できません。別の曲を選ぶか、2 つのステムを重ねて、「バッキング」トラックにゴーストのベースが残ることを受け入れましょう。

ワークフロー：ドラム練習

流れは同じで、抜くステムが違うだけです。

AI Stem Splitter にアップロードし、4 ステムを選びます。
vocals + bass + other をダウンロードします。 drums ステムはスキップ。
1 つのファイルにミックスし直します。

ドラム特有の落とし穴： 「vocals」ステムには、シンバルの薄いハッシュ音が漏れて入ります（シンバルは歯擦音のあるボーカルと多くの高周波成分を共有します）。「other」ステムには、ゴーストスネアのアーティファクトが時々入ります。練習用であれば気にしなくて構いません。漏れが聞こえないくらい大きな音で叩くからです。バッキングトラックの上に自分のキットを録音する場合は、ドラムの帯域以外をすべて 80 Hz 付近でハイパスすれば漏れは消えます。

うまくいく曲と、いかない曲

これは、誰も語らないもう半分の方程式です。完璧なモデルでも、分離を前提に録音されていない音声は分離できません。

うまくいくもの：

クラシックロック（'66 年以降のビートルズ、CCR、トム・ペティ、スプリングスティーン）
カントリー、ほぼ例外なく — ボーカルが常に前面中央にある
アコースティックのシンガーソングライター
クリーンなプロダクションのモダンポップ（2010 年以降の大半）
小編成のジャズスタンダード

うまくいかないもの：

濃いシューゲイザーやローファイ（意図的に滲んだプロダクション）
エフェクトのかかったハーモニーと重ねた重いオートチューンボーカル
ライブ録音（あらゆる音があらゆる音に漏れる）
強いパラレル/バスコンプレッションのかかった曲
1965 年以前のモノラルミックス
重ねたギターの壁を持つヘビーメタル

イヤホンテスト： 安物のイヤホンで聴いたときに、各楽器がはっきり聞こえて名前を挙げられるなら、モデルもおそらく分離できます。安物のイヤホンで「音の壁」のように聞こえるミックスなら、モデルは「ステムの壁」を返してくるでしょう。

テンポを落とす、またはキーを変える

原曲テンポのバッキングトラックは、まだ練習中の段階ではめったに役に立ちません。対処法は 2 つあります。

分離した後にテンポを落とす。 通常通りステム分離を実行してバッキングトラックをミックスし、それを slowed + reverb maker に入れます。テンポを 15% ほど落とすまでは問題なく動作します。それを超えると、シンバルにタイムストレッチのアーティファクトが聞こえ始めます。

分離する前にテンポを落とす。 直感に反しますが、これがしばしば より良い ステム品質を生みます。モデルは同じ音声を 1 秒あたりのサンプル密度が低い状態で処理することになり、扱いの難しいトランジェントに対してより多くの情報を得られます。デフォルトの分離結果が濁る曲では、これを試してみてください。

キーを変える場合は、最終的なバッキングトラックに対して pitch changer を使いましょう。分離前にキーを変えるのは避けてください。ピッチシフトのアーティファクトがモデルを混乱させ、より悪いステムが出来上がります。

知っておく価値のある 3 つの落とし穴

1. ミックス前に各ステムをノーマライズしない。 ステム分離は、すでに原曲のミックスにおける相対的な音量を保持しています。組み合わせる前に各ステムを 0 dB にノーマライズすると、突然ベースが一番大きいバッキングトラックが出来上がります。原曲に対してまったく間違った状態です。生のステムをインポートし、すべてのトラックのゲインを 0 dB に設定して書き出しましょう。

2. 一度きりの曲のためにステムを作ろうとしない。 ステム分離は、50 回練習する曲に対して意味があります。2 回しか弾かない曲なら、自分の音が聞こえる音量で原曲と一緒に弾けばいいだけです。「処理 5 分 + ミックス 30 秒」の数学は、多くの練習セッションを通じて初めて回収されます。

3. 元の音声がひどい音なら、最初の分離結果を信用しない。 ビットレートは重要です。128 kbps の YouTube リップは、320 kbps の MP3 やロスレスファイルよりも目に見えて悪く分離されます。結果がおかしく感じたら、まずソースを確認してください。低ビットレートのソースから引き出せる品質には実際の上限があります。