
Pixabayの同じ楽曲をLALAL.AI、Moises、vocalremover.org、Voice.ai、Fadr、UVR、そして自作のAI Stem Splitterに通してみました。ヘッドフォンで聴き比べた率直な比較と、6ステムを綺麗に取り出すためのステップバイステップガイドをお届けします。
私はボーカルリムーバーを自分で作りました。最初の推論コードを1行書く前に、週末を丸々使って、クレジットカードを登録できる限りのツール、それからカードがなくても使えるいくつかのツールに同じ曲を通してみたのです。
結果は、SEO記事が約束しているような内容ではありませんでした。
これは、私が最初の段階で読みたかった比較記事です。7つのツール、1つの楽曲、ヘッドフォン、そして文句でいっぱいになったノート。
参照トラックは1曲——Pixabayのinaya_officialによる「Sunlight」。ロイヤリティフリーで、温かいパッド、ドラム、ベース、そしてブリッジでピアノのフィルが入る、クリーンなリードボーカルの楽曲です。
この曲を選んだ理由は、ブリッジのピアノがどの分離ツールにとっても最大の難所だからです。「ステムスプリッター」を名乗るツールが、ピアノを「その他」に塗り込めてしまうなら、私はそれを耳で確かめたい。
どのツールにも同じ入力を渡しました——3分14秒のWAV、44.1 kHz/16-bit。試聴はSony MDR-7506で、ツールがMP3しか出さない場合はモノラルにサミングして比較しました。
甘い評価はしていません。
アップロード、支払い、ダウンロード。このリストの中で最もUIが整っており、ステム単位で抽出できるタブの作りは本当によく考えられています。
ただし、2点ハマりました。
無料枠は**「生涯で10分」たった一度きり**——月10分でも、曲ごとに10分でもありません。使い切った瞬間、クレジットパックへの誘導が始まります。
そしてデフォルトの2ステム出力(ボーカル vs 伴奏)は、ボーカルステムが妙に空虚な響きでした。「Phoenix」モデルに切り替えるとほぼ解消しますが、それを知らないとたどり着けません。
向いている人: 綺麗なダッシュボードを求め、価格を気にしない人。 向かない人: 本契約の前に複数の曲をテストしたい人。
Moisesは単なる分離ツールではなく、あなたの練習スタジオになろうとしています。コード検出、ピッチシフター、テンポスライダー、歌詞オーバーレイ。
曲に合わせて練習する用途なら最高です。ステムを抽出してすぐに退散したい人にとっては、ただの摩擦です。
無料プランは月5回まで、しかも2ステムだけ。4ステムを得るには、年払いで月3.99ドルのPremiumプランへ。年の途中で解約しても支払いは続きます。
Premiumの5ステム出力(ボーカル/ドラム/ベース/ピアノ/その他)はクリーンです。問題は、自分の曲で品質を確かめる前に、Moisesを気に入って課金する必要があることです。
Googleで「vocal remover」検索1位のブランド。だから期待値は高めでした。
アップロードは一瞬、処理も速く、出力は——まあまあ。それ以上でも以下でもありません。
姉妹サービスのSplitter AIは最大5ステム分離まで対応し、初回は無料・登録不要。これがキラー機能です。品質的にはSpleeter系統のモデルだと耳でわかります——ベースに音漏れ、ドラムが少し潰れた音、ボーカルステムはカラオケパーティーには十分でも、公開するリミックスには使えない品質です。
率直な評価: 今晩の家族パーティー用にカラオケ伴奏を作るなら、これが正解です。読むのをやめて使ってください。無料で、ちゃんと動き、ログインも不要です。
ステージでループ再生したい、DAWに取り込みたい——そういう用途なら読み進めてください。
ランディングページにはっきり「The Best AI Stem Splitter on the Market」と書いてあります。
違います。
ボーカルの分離はまあ許容範囲。ドラムは芯がなくポンピングしていました。「その他」ステムがピアノを丸ごと飲み込んでいた——まさに私が警戒していた失敗パターンそのものです。
さらに驚いたのはワークフローです。結果をダウンロードするには、デスクトップアプリのインストールが必須。Webツールを名乗っている分離ツールでこれは、私には致命傷でした。
インストール8分後にアンインストールしました。
このリストの中で唯一、まずプロデューサーとDJを、次にカジュアルユーザーを狙ったマーケティングをしているツールです。16種類のステム、ボーカル/ベース/ドラムのMIDIエクスポート、DAWプラグイン、専用の/djページ。
無料枠は実評価できる程度には十分です。テスト曲での5ステム出力は、後述のhtdemucs系の結果に次いで2番目に良いものでした。ピアノはピアノステムに収まり、ベースもベースステムに収まっていました。
有料プランは「Plus」が年50ドル。毎週使うなら非常に良いコスパです。
予想外の注意点: 16ステムモードは、実は同じ基底分離結果をクリエイティブに切り分けたもの——エレキギター vs アコギ vs リードギター、といった具合です。サンプリング用途には便利ですが、本当の意味で16方向に物理分離しているわけではありません。
無料。ローカル動作。オープンソース。アップロードなし、プライバシー不安なし、月額課金なし。
r/musicproductionで最も推薦されているのがこれです。それも当然——Pythonをインストールし、適切なモデルファイルを適切なフォルダに置き、macOSのCUDA/MPSインストール戦に生き残れるなら、出力品質はどの商用ツールにも劣りません。
ただし、その「できるなら」がリアルな壁です。
私はまっさらなM2 MacBook AirでUVRを動かすまで約50分かかりました。Windowsの友人は2時間とStack Overflowの寄り道が必要でした。私たちは2人とも内部で同じDemucs htdemucs_ftモデルを使っており、2人とも美しいステムを得られました。
UVRを使うべき人: 多数のトラックを処理する、プライバシーを重視する、分単位で課金されたくない、そしてインストール手順書を読むのが苦にならない人。
UVRを避けるべき人: 60秒でステムが欲しい人、そしてpip installを本気で叩いたことがない人。
全面開示——これは私が作りました。読み飛ばしてもらって構いません。ただ、比較目的でこの記事に来てくださっているので、何であって何でないのか正直に書きます。
中身はUVRと同じhtdemucsモデルファミリーです。モデルはMeta AI製で、Sony Music Demixing Challengeで優勝し、まともなオープンソースツールは皆これに行き着きます。私が作ったのは「より良いモデル」ではありません。そのモデルを摩擦なく動かす手段です。
6ステム出力——ボーカル、ドラム、ベース、ギター、ピアノ、その他。ブラウザ完結。WAVダウンロード。
テスト曲では、ピアノをピアノステムに留めることに成功しました。サビでボーカルにドラム漏れが聞き取れる箇所はありません。処理は典型的な曲の長さで60秒以内に完了します(Pixabayのテスト曲は41秒で返ってきました)。
正解ではない場面:
操作ガイドが欲しいというリクエストがあったので、「曲がある」状態から「6ステムが手元にある」状態までの全工程を書きます。
ステップ1. aistemsplitter.orgにアクセスし、Googleでサインイン。処理10分の無料枠がもらえます——クレジットカード不要、裏で減り続けるトライアルタイマーもありません。
ステップ2. 音声ファイルをアップローダーにドラッグ。対応形式はMP3、WAV、FLAC、M4A。1ファイルあたり約100 MB、約20分まで。
ステップ3. ステムモードを選択。4ステム(ボーカル/ドラム/ベース/その他)の方が高速で、他のツールが出すものとほぼ同等。6ステム(ギターとピアノを追加)は、先に触れたピアノ問題を気にする人向けです。
ステップ4. スタートを押す。プログレスバーは見せかけの0〜100アニメーションではなく、リアルタイムで進行します。3〜4分の曲なら、私たちのインフラでは1分以内に完了するのが普通です。
ステップ5. 完了すると、各ステムに専用のプレイヤーとダウンロードボタンが付きます。ソロ、ミュート、原曲とのA/B比較、6ステム全部をWAVのzipで一括ダウンロード——すべて可能です。
この時点で、ボーカルをソロにすれば完全に分離されたボーカルだけが聞こえ、ボーカル以外のすべてをソロにすればボーカルが一切聞こえないはずです。そうでない場合はサポートメールでご連絡ください——これは私たちが最も気にしている失敗モードです。
ステップ6(任意). 無料クレジットを使い切ったら、クレジットパックは50分で5ドル(1分10セント)で、クレジットは期限なし。サブスクリプションはありません。年に1曲しか処理しなくても、その5ドルのうち4セントしか使わないことになります。
最初に欲しかった表が、これです。
| ツール | 無料枠 | 最低有料 | ステム数 | 形式 | 速度 | 率直な評価 |
|---|---|---|---|---|---|---|
| LALAL.AI | 生涯10分 | 約15ドル〜のクレジットパック | 最大10 | WAV/MP3 | 約1分 | UIは綺麗、無料枠は厳しい |
| Moises | 月5曲、2ステム | 年払いで月3.99ドル | 有料5 | MP3(無料)、WAV(有料) | 1〜2分 | 本気で課金するなら最高 |
| vocalremover.org | 無料・登録不要・5ステム | 会員ティアあり | 最大5 | MP3/WAV | 1分未満 | カラオケなら無料最強 |
| Voice.ai | アプリインストール必須で無料 | n/a | 2〜4 | アプリ必須 | まちまち | マーケティング>実体 |
| Fadr | 寛大な無料枠 | 年50ドル | 16(創造的分割) | WAV | 約1分 | プロデューサーには最適 |
| UVR(ローカル) | 永久無料 | 無料 | モデル依存(多くは6) | WAV | 自分のGPU次第 | インストールできれば最高品質 |
| AI Stem Splitter | 登録で10分 | 50分5ドル、期限なし | 6(htdemucs) | WAV | 1分未満 | インストール抜きでhtdemucsを使いたい、たまにしか使わない人に最適 |
今晩カラオケ伴奏を1本作るだけで、二度とやらない——vocalremover.org。読むのをやめてください。
Pythonをインストールでき、頻繁に使う——UVR。無料かつローカルに勝るものはありません。
DAWで生きているプロデューサー——Fadr+プラグイン。
6ステムが、1分以内で、WAVで、何のサブスクにも入らずに欲しい——AI Stem Splitterは、まさにそのケースのために私が作ったものです。
忘れる前に、3つだけ書き残します。
多くのツールはステム数の競争を走っている。「16ステム」というマーケコピーは売れます。しかし、良い4ステム分離と悪い16ステム分離の品質差は桁違いです。ステム数は品質ではありません。
無料ティアこそが商品である。試した有料プランはどれも、課金後でないと聞き取れない品質を売っていました。私が信頼するのは、課金前に自分の曲で出力を聴かせてくれるツールです。自分のサイトではこれを意図的に選択しましたし、このリストの全競合に対して私が唯一変えたいことでもあります。
品質を伴わない速度は、遅くてもクリーンより悪い。ボーカルステムにドラム漏れが残った30秒の分離は使い物になりません。漏れがない90秒の分離は宝物です。何がベンチマークされているか、よく見てください。
ノートは以上です。
曲をWebページにドロップして、DAWを開くより速く綺麗な6ステムが返ってくる日は、もう来ています。ただし、すべてのツールで等しく到来しているわけではありません。
