
htdemucs vs BS-RoFormer vs Spleeter——2026年の音源分離ベンチマーク
主要な3つのオープンソース音源分離モデルを実用的に比較——SDRスコア、推論コスト、現実のレイテンシ、そして本番でどれが本当に意味を持つかを解説します。
この1年ほどでAIによる音源分離を調べたことがある人なら、おそらく同じ3つの名前に出くわしたはずです——Spleeter、htdemucs(Hybrid Transformer Demucs)、そしてBS-RoFormer。比較記事や論文、「ボーカル抽出のやり方」チュートリアルには必ず登場しますが、その比較のされ方はたいてい間違っています。多くの記事は2019年の論文に載った1つのSDR値を引用してそれで終わりです。
これはプロダクトを出荷したり、パイプラインを構築したり、実際の音声に使うモデルを選んだりするうえでは役に立ちません。
この記事では、音源分離を実運用に投入する際に本当に重要な軸で、3つを比較します。
- 品質 ——「なんとなく」ではなく、査読を経た文献に基づくSDRスコア
- 推論速度 —— 本番環境で実際に待たされる時間
- 1曲あたりのコスト —— 2026年時点の汎用GPU価格で動かした場合の値
- 出力の柔軟性 —— 2ステム vs 4ステム vs 6ステム
- どれが正解なのか(そして正解ではないのか)
以下の内容はすべて、公開されているベンチマークと、私たち自身がhtdemucsを大規模に本番運用してきた経験に基づいています。数値を引用する際は出典を明記しています。
TL;DR(とにかく結論だけ知りたい人向け)
| モデル | 適した用途 | 出力ステム数 | 品質(平均SDR) | 速度 |
|---|---|---|---|---|
| Spleeter | リアルタイム、低リソース、バッチ処理 | 2、4、または5 | 約5.9 dB(ボーカル) | GPUで実時間の約100倍 |
| htdemucs | 本番のC2Cアプリ、品質と速度のバランス重視 | 4または6 | 約9.0 dB(平均) | A40で実時間の約5〜8倍 |
| BS-RoFormer | 最高音質のオフライン処理、マスタリング、アーカイブ用途 | 4(典型例) | 約9.80 dB(平均) | A40で実時間の約2〜3倍 |
この記事から1つだけ持ち帰ってほしいことがあるとすれば、ほぼあらゆるプロダクトにとってhtdemucsが妥当なデフォルトであり、しかも標準チェックポイントではなく htdemucs_ft を使ったほうがよいということです。Replicateのサーバーレス料金で見ると、Demucsの3バリアント(default、6s、ft)は1コールあたりのコストがほぼ同じなのに、ftは目に見えて分離品質が高いのです。私たちも始めた当初はこれを予想していませんでした——実際の請求書を見てから初めて分かったことです。
BS-RoFormerが目立って優れているのはベース、それもレイテンシが問題にならない場合に限られます。Spleeterは2019年のモデルを2026年のハードウェアで動かしているようなもので、確かに高速ですが、品質差はもう耳でわかるレベルです。
この記事の残りでは、その理由を説明していきます。
ここで言う「品質」とは——SDRの簡単な解説
音源分離の品質は通常、信号対歪み比(Signal-to-Distortion Ratio、SDR)でデシベル単位で測られます。値が高いほど良好です。基準データセットはMUSDB18(高音質版はMUSDB18-HQ)で、ボーカル・ドラム・ベース・「その他」の各ステムが分離された150曲のフルレングス楽曲を含みます。
実用上の目安は次のとおりです。
- 6 dB未満: 目立つアーティファクト、「位相が抜けたような」ボーカル、ステム間の音漏れが聞き取れる
- 6〜8 dB: カジュアルな用途(カラオケ、曲の耳コピ、アイデアスケッチ)には使える
- 8〜10 dB: コンテンツ制作やほとんどのDJ用途には十分クリーン
- 10 dB超: 平均的なリスナーにはほぼ判別不能、軽いクリーンアップを経てリリース品質の作業にも耐える
ボーカルで約9 dBを超えると、たいていのリスナーはブラインドテストでもう違いを聞き分けられなくなります。そこから先のゲインはエッジケース——重いリバーブ、ダブルボーカル、複雑なミックス——の話になります。
SI-SDRに関する補足: 最近の論文の一部はSI-SDR(scale-invariant SDR)を報告しています。これは単純なゲイン差を補正したもので、より頑健な指標です。本記事の数字が他の出典と食い違う場合、たいていは指標の定義が原因です。
3つのモデルの概要
Spleeter(Deezer、2019年)
Deezerの研究チームが2019年にリリースしたSpleeterは、スペクトログラム領域で動作するU-Netアーキテクチャです。2ステム(ボーカル/伴奏)、4ステム(ボーカル/ドラム/ベース/その他)、5ステム(ピアノを追加)の構成があります。
当時としては画期的なリリースでした——ライセンス料なしに、ノートパソコンのCPU上で「使える」音源分離が動かせるようになった最初の例です。6年経った今、品質ではあらゆる現代モデルに追い抜かれましたが、依然として速度と軽さでは圧倒的にトップです。
htdemucs(Meta AI、2022年)
Meta AIの研究チームによる第4世代Demucsモデルです。Spleeterと違い、htdemucsはハイブリッドモデルです——時間領域(波形)と周波数領域(スペクトログラム)の両方で動作し、その間をTransformerバックボーンが繋ぎます。元論文はMUSDB-HQ上で前世代Demucsより1.4 dBのSDR改善を報告しています。
実用上重要なバリアントは2つあります。
htdemucs—— 標準の4ステムモデルhtdemucs_6s—— ギターとピアノを独立ステムとして加えた6ステム版
加えて htdemucs_ft というファインチューン版もあり、推論は遅くなりますが個別ステムでわずかに精度が高くなります。
htdemucsは2021年のSony Music Demixing Challengeで競争力のある成績を残し、絶対的なSOTAを追い求めない多くの本番パイプラインでは依然としてデフォルト選択肢になっています。
BS-RoFormer(2023年)
MUSDB18-HQ上で現在のstate-of-the-artであるBS-RoFormer(Band-Split RoPE Transformer)は、RNNモジュールを階層的なRoPE Transformerで置き換えた純粋Transformerアーキテクチャです。入力スペクトログラムを互いに重ならない複数の周波数サブバンドに分割し、楽器ごとに特徴的な周波数帯域を持つ(ベースは低域、シンバルは高域など)という事実を活用します。
MUSDB18-HQに加えて500曲の追加データで学習させたBS-RoFormerは、Sound Demixing Challenge 2023(SDX23)の音源分離トラックで1位を獲得しました。追加データなしで学習させた小さい版でもMUSDB18-HQ上で平均9.80 dBのSDRを報告しています。
弱点は、htdemucsより遅く、メモリ消費も大きく、本番投入できる公開重みが単一の正規リリースとしてではなくコミュニティ実装に分散しているという点です。
1. 品質ベンチマーク(公開されているSDRスコア)
ほとんどの比較記事はここで破綻します——彼らは1つの数字だけをチェリーピックするのです。以下は公開文献に基づく、MUSDB18-HQ上でのステム別SDRスコアです(特記なき限り追加学習データなし)。
| モデル | ボーカル | ドラム | ベース | その他 | 平均 |
|---|---|---|---|---|---|
| Spleeter(4ステム) | 約5.9 dB | 約5.9 dB | 約5.5 dB | 約4.5 dB | 約5.4 dB |
| htdemucs(default) | 約8.1 dB | 約8.4 dB | 約8.6 dB | 約5.9 dB | 約7.7 dB |
| htdemucs_ft(fine-tuned) | 約8.9 dB | 約9.5 dB | 約9.4 dB | 約6.4 dB | 約8.5 dB |
| BS-RoFormer(追加データなし) | — | — | 約11.28 dB | — | 約9.80 dB |
| BS-RoFormer(500曲追加データあり) | — | — | — | — | 約9.76 dB+ |
出典: SpleeterのスコアはSpleeter JOSS論文およびBeatsToRapOn separation benchmarkから。htdemucsのスコアはHybrid Spectrogram and Waveform Source SeparationおよびBenchmarks and leaderboards for sound demixing tasksから。BS-RoFormerのスコアは同じ論文に記録されたSDX23の結果から。
この表からいくつか観察できることがあります。
Spleeter→htdemucsの差は、htdemucs→BS-RoFormerの差より大きいです。 Spleeterからhtdemucsに乗り換えると平均で約+2.3 dBのゲインです。htdemucsからBS-RoFormerだと約+1.3 dB。これがhtdemucsを「現実的なスイートスポット」にしている理由です。
BS-RoFormerの最大の勝ち筋はベースです。 ベース分離はhtdemucsの約8.6 dBから、BS-RoFormerでは約11.28 dBに跳ね上がります——ブラインドテストでも違いがわかるレベルです。ボーカルとドラムでのゲインはもっと小さいです。クリーンなベースが特に必要なもの(DJツール、採譜、ベース奏者向け音楽教育など)を作っているなら、BS-RoFormerは追加コンピュートを払う価値があります。それ以外では、ゲインは知覚できるかどうかの境界線上です。
htdemucs_ftは過小評価されています。 多くの比較記事は default の htdemucs チェックポイントしか試していません。ファインチューン版(htdemucs_ft)は推論時間が約4倍になる代わりに、BS-RoFormerとのギャップの大半を埋めます——それでも実用上はBS-RoFormerより速いのです。
2. 推論速度(理論値ではなく実測値)
A40 GPU 1枚で3分の楽曲を処理した際のおおよそのエンドツーエンド時間です。APIコールから結果ダウンロード可能になるまでを計測しました。
| モデル | エンドツーエンド時間 | 実時間倍率 |
|---|---|---|
| Spleeter(4ステム、GPU) | 約2〜5秒 | 実時間の約40〜90倍 |
| htdemucs(default、4ステム) | 約30〜45秒 | 実時間の約4〜6倍 |
| htdemucs_6s(6ステム) | 約40〜60秒 | 実時間の約3〜5倍 |
| htdemucs_ft(fine-tuned) | 約90〜150秒 | 実時間の約1.2〜2倍 |
| BS-RoFormer | 約60〜120秒 | 実時間の約1.5〜3倍 |
メモ:
- エンドツーエンド時間 ≠ 純粋なGPU推論時間です。 公開ベンチマークはたいてい、クリーンな入力に対するモデルのフォワードパスのみを報告しています。実際の本番処理時間には、コンテナのコールドスタート(サーバーレスで5〜30秒)、音声I/O(ファイルダウンロード、ffmpegでの前処理)、結果アップロードが含まれます。上記の数字はReplicate上でのエンドツーエンド計測です。
- Spleeterは速度に関しては別格です。 CPU単体でも実時間より十分速く動く唯一のモデルです。
- htdemucsの
overlapパラメータは大きな速度レバーです。 デフォルトのoverlap=0.25は妥当なトレードオフです。overlap=0.5にすると品質はわずかに上がりますが、コストは約2倍になります。overlap=0にするとはっきり高速化しますが、セグメント境界で耳に分かるチャンキングアーティファクトが出ます。 - BS-RoFormerのリファレンス実装は、誰のチェックポイントと推論コードを使うかで速度が大きく変わります。 上記の数字はコミュニティで人気のMVSep BS-RoFormer SWビルドのものです。
ユーザーが結果を待つコンシューマー向けプロダクトを出荷する場合、3分の楽曲で60秒を超えると私たちの経験ではコンバージョンに悪影響が出始めます。ということは、htdemucs(defaultと6s)は許容範囲に収まり、htdemucs_ftとBS-RoFormerは「ユーザーが後で戻ってくる」非同期/キュー型フローに寄ることになります。
3. 1曲あたりのコスト(本番運用の経済学)
ここはネット上の比較記事がほぼ全滅している節です。Replicateの公開価格は分かりやすそうに見えます——A40で$0.000725/秒、推論時間を掛ければ終わり、と。実際にはその計算は実請求の約2倍ズレており、しかもほとんどの比較記事が触れていない、もっと興味深い発見があります。
私たちの本番運用から得たメインの発見
aistemsplitter.orgでは数か月にわたり、Demucsの3バリアント全て——htdemucs(標準4ステム)、htdemucs_6s(6ステム)、htdemucs_ft(ファインチューン版)——を本番運用してきました。ReplicateのA40 GPUインスタンス上では、3バリアントとも実際の請求では1コールあたりのコストがほぼ同じです。およそ**$1あたり22コール**、つまり1曲あたり約$0.045です。
これは公開されている推論時間から予想される結果と矛盾するので、立ち止まって考える価値があります。
| モデル | 単純コスト(公開価格×推論時間) | 実測コスト |
|---|---|---|
| Spleeter(GPU) | $0.002未満 | $0.005未満 |
| htdemucs(default) | 約$0.022 | 約$0.045 |
| htdemucs_6s(6ステム) | 約$0.029 | 約$0.045 |
| htdemucs_ft(fine-tuned) | 約$0.11 | 約$0.045 |
| BS-RoFormer | 約$0.065 | 約$0.06〜0.10(ばらつきあり) |
Demucs 3バリアントが同じコストに収束する理由
単純な料金モデルは「純粋なGPU推論時間にしか課金されない」と仮定しています。しかし実際には、Replicateのコールには毎回以下が含まれます。
- コンテナのコールドスタート時間(ゼロからスケールするとき5〜30秒)
- モデル重みのGPUメモリへのロード
- 音声ファイルのダウンロードとffmpegでの前処理
- 結果のエンコードとストレージへの再アップロード
- コールあたりの最低課金時間
これらのオーバーヘッドはコールあたりほぼ固定費です——モデルの複雑さに比例しません。GPUのフォワードパスが30秒(htdemucs default)から90秒(htdemucs_ft)に伸びても、追加のコンピュートが請求書に与える影響は思ったより小さいのです。なぜならコールあたりの固定オーバーヘッドが既に予算の大半を食っているからです。
実用上の含意は明確です。すでにhtdemucsプラットフォームに乗っているなら、レイテンシ予算が許す範囲で最高品質のバリアントを使わない経済的な理由はほとんどありません。 ユーザーが60秒待ってくれるなら、htdemucs_6s(6ステム、デフォルト速度)を使ってください。2分待ってくれるなら、htdemucs_ft(fine-tuned、ほとんどのステムでBS-RoFormerに迫る品質)を使ってください。請求額は同じです。
これは、学術論文とReplicateの公開GPU価格を読んで導かれる結論とは正反対です。月末に実際の請求書を見て初めて見えてくる事実なのです。
ユニットエコノミクスへの含意
音源分離プロダクトのユニットエコノミクスをモデル化するなら、どのDemucsバリアントを選んでも1曲$0.04〜$0.05を下限と見込んでください。これによって次のことが決まります。
- 無料枠の上限 —— ユーザーあたり10無料分(≒3曲)にすると、コンバージョン前にサインアップ1件あたり約$0.13を吸収していることになります
- クレジットパックの最低成立価格 —— 小売で1曲あたり約$0.10を切ると、Stripe手数料・サポート・インフラオーバーヘッドの分の利幅が消えます
- 大量処理時のコスト —— 月10,000曲なら純粋な推論コストだけで約$450、ストレージや帯域、その他インフラは別途必要です
重要な注意点が2つあります。
- トラフィックが少ないとコールドスタートが支配的になります。 サービスが1日数百曲未満しか処理しない場合、コールドスタートのオーバーヘッドが相対的に大きくなります。極端に低トラフィックでは実コストが1曲$0.06〜$0.07に上振れすることもあります。
- セルフホスティングが勝つのは、推論支出が月$2,000を超えてからです。 専用GPUの稼働率を40%以上で持続させるだけのトラフィックがない限り、サーバーレスGPUのほうがRunPodやVast.ai、自前コロケーションより安いです。私たちはこれを直接計測しました——ローンチ期間中ずっと、Replicateのほうが専用インフラより安く済みました。
4. 出力の柔軟性(ステム数とフォーマット)
| モデル | 利用可能なステム構成 | メモ |
|---|---|---|
| Spleeter | 2、4、または5ステム | 5ステム版はピアノを追加(別モデル) |
| htdemucs | 4または6ステム | htdemucs_6s がギター+ピアノを追加 |
| BS-RoFormer | 4ステム(多くの場合)。一部に6ステムのコミュニティビルドあり | 出現頻度の低いギター/ピアノステムでは品質が落ちる |
この観点ではhtdemucs_6sは本当に独自の地位にあります。 ギターやピアノの独立ステムが必要なユースケース(音楽教育、マルチトラックリミックス、採譜)では、htdemucs_6sが本番品質でそれを提供する唯一の広く展開されているモデルです。BS-RoFormerの6ステム版もコミュニティには存在しますが、まだ成熟しておらず、正規のBS-RoFormerは4ステムシステムです。
「ボーカルだけ」「インストだけ」のユースケース(カラオケ層)では3モデルとも問題なく動くので、品質ではなく速度で選んでください。Spleeterなら実時間の90倍、ミリ秒単位で使えるインスト音源が手に入ります。
5. どれを選ぶか
数か月にわたって本番でこれらを動かしてきた経験から、ゼロから始める人に渡すならこんな単純なディシジョンツリーになります。
Spleeterを選ぶべきとき:
- 音声をリアルタイムまたは準リアルタイムで処理する必要がある
- CPUや制約のあるハードウェア上で動かす
- バッチ処理スループットが必要(例: 楽曲カタログ全体に対する特徴量抽出)
- 品質基準が「使える」程度でよく、「良い」までは求めない
htdemucsを選ぶべきとき:
- ユーザーが60秒未満待つコンシューマー向けプロダクトを構築している
- 6ステムが必要(
htdemucs_6sを使う) - 本番環境で品質対コスト比を最大化したい
- カスタム推論コードを保守したくない(主要なモデルサービングプラットフォームでよくサポートされている)
BS-RoFormerを選ぶべきとき:
- オフラインまたはバッチ処理で、1曲1〜2分待っても問題ない
- ベース品質がとくに重要(DJツール、採譜、音響解析)
- リリース品質の制作物を作っており、限界SDRが効いてくる
- コミュニティ製モデルリリースを追い続けるエンジニアリング工数を投下する覚悟がある
いずれも選ばないほうがよいとき:
- カラオケ用にボーカル除去さえできればよい場合。Spleeterの2ステムを使ってください。マイク越しに流すシンガロング音源では、品質差は問題になりません。
- DJアプリで音源分離をリアルタイムに行いたい場合。コンシューマーハードウェアで本当のリアルタイムに動くものはありません。リアルタイム分離を内蔵するDAW(Ableton 12など)を使うか、トラックを事前にオフラインで処理してください。
実運用上どう見えるか
私たちはaistemsplitter.orgでhtdemucs_6sを本番運用しています——ローカルのツールチェーン(PyTorchのバージョン、CUDAのバージョン、音声ライブラリの依存関係地獄を含めると、たいていの人にとって午後がまるごと潰れる作業です)をセットアップしたくない人向けの、ホスト型6ステム分離サービスです。
論文には書かれていないことで、私たちが学んだことをいくつか挙げます。
- 本番の実コストは単純計算の約2倍で、しかもDemucsバリアント間でほぼフラットです。 公開GPU価格×推論時間で出る数字はプラットフォームのオーバーヘッドを無視しています。私たちの実際のReplicate請求は1曲あたり約$0.045で——
htdemucsでもhtdemucs_6sでもhtdemucs_ftでも同じ数字です。コールあたりの固定オーバーヘッドが、モデル間の限界コンピュート差を完全に飲み込んでいます。この一点だけで、私たちのモデル選択の考え方が変わりました——理論上のコンピュートコストではなく品質で選んでください、なぜならコスト差は実請求書には現れないからです。 - フォーマット変換のほうがモデルより重要です。 htdemucsはWAV入力しか受け付けません。ユーザーはMP3、FLAC、M4A、OGG、それにますます奇妙なWebMコンテナをアップロードしてきます。前処理のffmpeg層を大規模で正しく動かすのは決して些細な仕事ではありません。
- YouTube/SoundCloudのURL投入はUX勝利の半分を占めます。 ユーザーにファイルをダウンロードしてからアップロードしてもらうと、約40%が脱落します。yt-dlp経由のURL直接投入は維持が面倒(年齢制限動画、地域ブロック、ライブストリーム)ですが、その価値はあります。
- 6ステムのケースこそユーザーが「魔法」を感じる場面です。 自分の好きな曲のギターがピアノから分離されているのを初めて聞いた瞬間、人は友達に話します。4ステムは「いいね」レベル、6ステムは「待って、どうやってこれを実現してるの」のレベルです。
ツールチェーンをセットアップせずに6ステムhtdemucsが実音声でどう聞こえるかを試したい人のために、私たちのサイトでは数曲試せる無料クレジットを用意しています。
この分野で次に来るもの
2026年に注目しておく価値のあるオープンクエスチョンをいくつか挙げます。
- 8ステム(ボーカル/バックボーカル/ドラム/ベース/ギター/ピアノ/シンセ/その他)が標準になるか? コミュニティのファインチューンはこの方向に進んでいますが、個別のシンセおよびバックボーカルステム用の学習データがボトルネックです。
- コンシューマーハードウェア上のリアルタイム化? 現在のオープンモデルで、CPU上で許容できる品質をリアルタイム速度で動かせるものは存在しません。モデル蒸留が進めば変わりますが、おそらく2026年中ではありません。
- 多言語/非西洋圏のボーカル分離。 公開ベンチマークの大半は英語のポップスとロックに支配されています。発声技法の違う言語(マンダリン、強くオートチューンのかかった広東ポップス、ボリウッドの厚いボーカルスタック)では明らかに性能が落ちます。これはモデルのデプロイ問題ではなく、分野としての本物のギャップです。
この領域で仕事をしていて、私たちが面白がりそうなデータを持っている人——あるいはこれらのモデルで私たちが踏んでいない地雷を踏んだ人——がいたら、ぜひ連絡をください。
参考文献
- htdemucs —— Rouard, S., Massa, F., Défossez, A. Hybrid Transformers for Music Source Separation. arXiv:2211.08553
- Demucs v4 (hybrid) —— Défossez, A. Hybrid Spectrogram and Waveform Source Separation. arXiv:2111.03600
- BS-RoFormer —— Lu, W.-T., Wang, J.-C., et al. Music Source Separation with Band-Split RoPE Transformer. SDX23 Challenge results
- Spleeter —— Hennequin, R., Khlif, A., Voituret, F., Moussallam, M. Spleeter: a fast and efficient music source separation tool with pre-trained models. JOSS 2020
- MUSDB18データセット —— Rafii, Z., Liutkus, A., Stöter, F.-R., Mimilakis, S. I., Bittner, R. The MUSDB18 corpus for music separation. Zenodo
- Sound Demixing Challenge 2023 —— Mitsufuji et al., SDX23 results
- MVSepモデルリーダーボード —— mvsep.com/en/algorithms
Last updated: April 2026(2026年4月)。データ、SDR数値、または実用上の主張に誤りを見つけた場合は、訂正をお送りください。出典明記のうえ記事を更新します。
著者

カテゴリ
もっと読む

ベスト・ボーカルリムーバー徹底比較——同じ1曲で7つのツールを試してみた
Pixabayの同じ楽曲をLALAL.AI、Moises、vocalremover.org、Voice.ai、Fadr、UVR、そして自作のAI Stem Splitterに通してみました。ヘッドフォンで聴き比べた率直な比較と、6ステムを綺麗に取り出すためのステップバイステップガイドをお届けします。


How to Remove Vocals from Any Song: A Beginner's Step-by-Step Guide (2026)
Step-by-step guide to removing vocals from any song with AI. No software to install, no signup for your first try. Get a clean instrumental in under 90 seconds.


AI Stem Splitter でバッキングトラックを作って練習する方法
「自分の楽器以外すべて」のバッキングトラックを作るための実践的なワークフロー。モデルの選び方(4 ステム vs 6 ステム)、ボーカル・ギター・ベース・ドラムの楽器別手順、うまく分離できない曲、そしてテンポを落とす方法まで解説します。
