
Ich habe denselben Pixabay-Track durch LALAL.AI, Moises, vocalremover.org, Voice.ai, Fadr, UVR und meinen eigenen AI Stem Splitter gejagt. Hier ist der ehrliche, auf dem Kopfhörer getestete Vergleich plus eine Schritt-für-Schritt-Anleitung für saubere Sechs-Stem-Ergebnisse.
Ich habe einen Vocal Remover gebaut. Bevor ich eine einzige Zeile Inferenz-Code ausgeliefert habe, habe ich ein Wochenende damit verbracht, denselben Song durch jedes Tool zu jagen, für das ich eine Kreditkarte zücken konnte — und durch ein paar, für die ich keine brauchte.
Die Ergebnisse waren nicht das, was die SEO-Artikel versprochen hatten.
Das ist der Vergleich, von dem ich mir am Anfang gewünscht hätte, dass es ihn gibt. Sieben Tools, ein Track, Kopfhörer und ein Notizbuch voller Beschwerden.
Ein Referenztrack: inaya_officials „Sunlight" auf Pixabay — gemeinfrei, sauberer Lead-Gesang über warmen Pads, Drums, Bass und einer Klavier-Figur auf der Bridge.
Ich habe ihn ausgesucht, weil das Klavier in der Bridge das Schwierigste ist, was einen Separator herausfordern kann. Wenn ein Tool sich selbst „Stem Splitter" nennt, das Klavier aber in den „Other"-Stem verschmiert, will ich das hören.
Jedes Tool bekam denselben Input: eine 3:14 lange WAV-Datei mit 44,1 kHz / 16 Bit. Ich habe auf Sony MDR-7506 gehört, mono summiert, wenn das Tool nur MP3 angeboten hat.
Ich war nicht zimperlich.
Hochladen, bezahlen, herunterladen. Ihre UI ist die sauberste in dieser Liste, und der Per-Stem-Isolation-Tab ist wirklich gut durchdacht.
Aber zwei Dinge haben mich gestört.
Die Free-Tier-Variante gibt dir 10 Minuten genau einmal, für immer — nicht 10 Minuten pro Monat, nicht 10 Minuten pro Song. Einmal. In dem Moment, wo du dort ankommst, musst du auf ein Credit-Paket umsteigen.
Und der Standard-2-Stem-Output (Vocals vs. Instrumental) klang auf dem Vocal-Stem merkwürdig hohl. Mit dem Wechsel zum „Phoenix"-Modell wurde das Meiste behoben, aber ich musste wissen, dass ich das tun muss.
Gut für: Leute, die ein sauberes Dashboard wollen und sich am Preis nicht stören. Schlecht für: alle, die mehr als einen Song testen, bevor sie sich festlegen.
Moises will dein Übungsstudio sein, nicht nur ein Separator. Es gibt einen Akkord-Detector, einen Pitch-Shifter, einen Tempo-Slider, Lyrics-Overlays.
Für das Mitspielen zu einem Song ist das super. Wenn du nur Stems extrahieren und wieder raus willst, ist es Reibung.
Der kostenlose Plan deckelt dich bei 5 Trennungen pro Monat, jeweils 2 Stems. Für 4 Stems musst du auf den Premium-Plan zu 3,99 $/Monat, jährlich abgerechnet. Mittendrin kündigen geht nicht — du zahlst weiter.
Der 5-Stem-Output (Vocals/Drums/Bass/Klavier/Other) im Premium ist sauber. Der Haken: Du musst Moises so gut finden, dass du abonnierst, bevor du es auf deinem eigenen Song hören kannst.
Die Marke, die auf Google für „Vocal Remover" auf Platz 1 rankt. Entsprechend hatte ich hohe Erwartungen.
Der Upload war sofort, die Verarbeitung schnell, der Output war — okay. Nur okay.
Ihr Splitter-AI-Subprodukt gibt dir bis zu 5 Stems, kostenlos, beim ersten Lauf ohne Anmeldung. Das ist das Killer-Feature. Qualitativ ist es klar ein Modell aus der Spleeter-Linie: Bleed im Bass, Drums klingen ein bisschen breiig, ein Vocal-Stem, der sauber genug für einen Karaoke-Abend ist, aber nicht für einen Remix, den du veröffentlichen würdest.
Ehrliche Einschätzung: Wenn du heute Abend für eine Familienfeier ein Karaoke-Backing schneidest, ist das das Tool. Hör auf zu lesen und nutze es. Es ist kostenlos, es funktioniert, du brauchst kein Login.
Für alles, was du auf der Bühne loopen oder im DAW weiterverarbeiten würdest, lies weiter.
Ihre Landingpage sagt wörtlich „The Best AI Stem Splitter on the Market."
Ist sie nicht.
Die Vocal-Isolation war akzeptabel. Die Drums waren weich und pumpend. Der „Other"-Stem hat das Klavier komplett geschluckt — genau die Failure-Mode, auf die ich geachtet habe.
Was mich mehr überrascht hat, war der Workflow. Um das Ergebnis herunterzuladen, musste ich ihre Desktop-App installieren. Bei einem Separator, der sich als Web-Tool positioniert, war das für mich der Dealbreaker.
Ich habe sie 8 Minuten nach der Installation wieder deinstalliert.
Fadr ist das einzige Tool in dieser Liste, das sich zuerst an Producer und DJs richtet und erst danach an Gelegenheitsnutzer. 16 Stem-Typen, MIDI-Export für Vocals/Bass/Drums, ein DAW-Plugin, eine eigene /dj-Seite.
Der Free-Tier ist großzügig genug, um es wirklich zu evaluieren. Der 5-Stem-Output auf meinem Testtrack war der zweitbeste, den ich gehört habe — hinter den htdemucs-Klasse-Ergebnissen weiter unten. Das Klavier blieb im Klavier-Stem. Der Bass blieb im Bass-Stem.
Der Bezahltarif liegt bei 50 $/Jahr für „Plus." Das ist gutes Preis-Leistungs-Verhältnis, wenn du es wöchentlich nutzt.
Eine Einschränkung, mit der ich nicht gerechnet habe: Der 16-Stem-Modus ist überwiegend ein kreatives Zerschneiden derselben zugrundeliegenden Trennung — Gitarre-elektrisch vs. Gitarre-akustisch vs. Gitarre-Lead, in der Art. Nützlich fürs Sampling, aber keine echte 16-fache physische Trennung.
Kostenlos. Lokal. Open Source. Kein Upload, kein Datenschutz-Bauchschmerz, keine Monatsgebühr.
Das ist das Tool, das die meisten r/musicproduction-Threads empfehlen. Und das zu Recht — wenn du Python installieren kannst, die richtigen Modell-Dateien in den richtigen Ordner legst und einen CUDA-/MPS-Installationskampf auf macOS überlebst, ist die Qualität, die du herausbekommst, auf Augenhöhe mit allem Kommerziellen.
Aber das ist ein großes „wenn."
Ich habe UVR in etwa 50 Minuten auf einem frischen M2 MacBook Air zum Laufen gebracht. Ein Freund auf Windows hat zwei Stunden und einen Stack-Overflow-Umweg gebraucht. Wir haben beide unter der Haube dasselbe Demucs-htdemucs_ft-Modell verwendet, und wir haben beide schöne Stems bekommen.
Nimm UVR, wenn: du Dutzende Tracks verarbeitest, dir Privatsphäre wichtig ist, du nicht pro Minute zahlen willst und du okay damit bist, Installationsdoku zu lesen.
Lass UVR sein, wenn: du Stems in 60 Sekunden willst und du noch nie wütend pip install getippt hast.
Volle Transparenz: Das hier habe ich gebaut. Überspring den Abschnitt gerne — aber du bist wegen eines Vergleichs hier, und ich werde ehrlich sagen, was es ist und was nicht.
Es läuft dieselbe htdemucs-Modellfamilie, die auch UVR verwendet. Das Modell stammt von Meta AI, hat die Sony Music Demixing Challenge gewonnen, und es ist das, wonach jedes ernsthafte Open-Source-Tool greift. Ich habe kein „besseres Modell" gebaut. Ich habe einen reibungslosen Weg gebaut, dieses Modell laufen zu lassen.
Sechs Stems raus: Vocals, Drums, Bass, Gitarre, Klavier, Other. Nur im Browser. WAV-Download.
Auf dem Testtrack hat es das Klavier im Klavier-Stem gehalten. Der Vocal-Stem hatte im Refrain kein hörbares Drum-Bleed. Die Verarbeitung war in unter 60 Sekunden für eine typische Songlänge fertig (der Pixabay-Testtrack kam in 41 Sekunden zurück).
Wo es nicht die richtige Wahl ist:
Du hast nach der Bedienungsanleitung gefragt. Hier ist der ganze Weg von „Ich habe einen Song" zu „Ich habe sechs Stems."
Schritt 1. Geh auf aistemsplitter.org. Melde dich mit Google an. Du bekommst 10 kostenlose Minuten Verarbeitungszeit — keine Kreditkarte, kein Trial-Timer, der im Hintergrund herunterzählt.
Schritt 2. Zieh deine Audiodatei auf den Uploader. Unterstützt: MP3, WAV, FLAC, M4A. Bis zu ca. 100 MB oder rund 20 Minuten pro Datei.
Schritt 3. Wähl einen Stem-Modus. 4-Stem (Vocals / Drums / Bass / Other) ist schneller und entspricht dem, was die meisten anderen Tools liefern. 6-Stem (zusätzlich Gitarre und Klavier) ist das, was du nehmen solltest, wenn dir die Klavier-Frage von vorhin wichtig ist.
Schritt 4. Druck auf Start. Der Fortschrittsbalken bewegt sich in Echtzeit, keine vorgetäuschte 0-bis-100-Animation. Ein typischer 3-bis-4-minütiger Song landet auf unserer Infrastruktur in unter einer Minute.
Schritt 5. Wenn es fertig ist, bekommt jeder Stem seinen eigenen Player und seinen eigenen Download-Button. Du kannst solo schalten, muten, gegen das Original A/B-vergleichen oder alle sechs als WAV in einem Zip herunterladen.
An dieser Stelle solltest du den Vocal komplett isoliert hören, wenn du ihn solo schaltest, und keinen Vocal hören, wenn du alles außer dem Vocal solo schaltest. Wenn nicht, schreib mir auf der Support-E-Mail — das ist die Failure-Mode, die uns am wichtigsten ist.
Schritt 6 (optional). Free-Credits aufgebraucht? Das Credit-Paket kostet 5 $ für 50 Minuten (0,10 $ pro Minute), und die Credits verfallen nie. Es gibt kein Abo. Wenn du dieses Jahr einen Song verarbeitest, hast du 4 Cent von den 5 $ verbraucht.
Das ist die Tabelle, die ich mir am Anfang gewünscht hätte.
| Tool | Free-Output | Bezahleinstieg | Stems | Format | Tempo | Ehrliches Fazit |
|---|---|---|---|---|---|---|
| LALAL.AI | 10 Min. lebenslang | Credit-Pakete ab ca. 15 $ | bis zu 10 | WAV / MP3 | ~1 Min. | Saubere UI, schmerzhafter Free-Tier |
| Moises | 5 Tracks/Mo., 2-Stem | 3,99 $/Mo., jährlich abgerechnet | 5 im Bezahltarif | MP3 (frei), WAV (bezahlt) | ~1–2 Min. | Top, wenn du wirklich abonnierst |
| vocalremover.org | Frei, ohne Anmeldung, 5-Stem | Membership-Tarif | bis zu 5 | MP3 / WAV | <1 Min. | Beste Gratis-Option für Karaoke |
| Voice.ai | Frei mit App-Installation | n/a | 2–4 | App erforderlich | variiert | Marketing > Realität |
| Fadr | Großzügiger Free-Tier | 50 $/Jahr | 16 (kreative Aufteilung) | WAV | ~1 Min. | Beste Wahl für Producer |
| UVR (lokal) | Für immer frei | Frei | Modellabhängig (oft 6) | WAV | Deine GPU | Beste Qualität, wenn du es installiert bekommst |
| AI Stem Splitter | 10 Min. bei Anmeldung | 5 $ / 50 Min., verfällt nie | 6 (htdemucs) | WAV | <1 Min. | Beste Wahl für Gelegenheitsnutzer, die htdemucs ohne Installation wollen |
Wenn du heute Abend einen einzigen Karaoke-Track schneidest und das nie wieder machst: vocalremover.org. Hör auf zu lesen.
Wenn du Python installieren kannst und viele davon machst: UVR. Nichts schlägt kostenlos und lokal.
Wenn du Producer bist und im DAW lebst: Fadr plus das Plugin.
Wenn du sechs Stems willst, sie in unter einer Minute willst, WAV willst und nichts abonnieren willst: AI Stem Splitter habe ich genau für diesen Fall gebaut.
Drei Dinge, aufgeschrieben, bevor ich sie vergesse:
Die meisten Tools rennen um die Stem-Anzahl. Die Marketing-Aussage „16 Stems" verkauft sich. Der tatsächliche Qualitätsunterschied zwischen einer guten 4-Stem-Trennung und einer schlechten 16-Stem-Trennung ist enorm. Stem-Anzahl ist nicht Qualität.
Der Free-Tier ist das Produkt. Jeder Bezahlplan, den ich probiert habe, hat eine Qualität verkauft, die ich nicht hören konnte, bevor ich gezahlt habe. Den Tools, denen ich vertraue, sind die, die mich den Output auf meinem eigenen Song hören lassen, bevor irgendeine Anmeldung kommt. Das ist eine bewusste Entscheidung, die ich auf meiner eigenen Seite getroffen habe, und es ist das eine, was ich an jedem Konkurrenten in dieser Liste ändern würde.
Geschwindigkeit ohne Qualität ist schlimmer als langsam und sauber. Eine 30-Sekunden-Trennung, die Drum-Bleed auf dem Vocal-Stem hinterlässt, ist unbrauchbar. Eine 90-Sekunden-Trennung, die das nicht tut, ist Gold wert. Achte darauf, was gebenchmarkt wird.
Das ist das ganze Notizbuch.
Der Tag, an dem du einen Song in eine Webseite ziehen und sechs saubere Stems zurückbekommen kannst — schneller, als du dein DAW geöffnet hättest — ist da. Er ist nur noch nicht gleichmäßig für jedes Tool da.
