
Практическое сравнение трёх ведущих открытых моделей разделения источников звука — SDR, стоимость инференса, реальная задержка и сценарии, в которых каждая из них действительно оправдана в продакшене.
Если за последние двенадцать месяцев Вы хоть раз интересовались AI-разделением музыки, то наверняка натыкались на одни и те же три имени: Spleeter, htdemucs (Hybrid Transformer Demucs) и BS-RoFormer. Они появляются в каждом сравнительном посте, в каждой научной статье и в каждом туториале «как извлечь вокал» — но сравниваются обычно неправильно. В большинстве постов приводится одна цифра SDR из работы 2019 года, и на этом всё.
Это не очень полезно, если Вы пытаетесь выпустить продукт, построить пайплайн или выбрать модель для реального аудио.
Этот пост сравнивает три модели по тем характеристикам, которые действительно важны при развёртывании разделения источников звука:
Всё, что ниже, основано на опубликованных бенчмарках и на нашем собственном продакшен-деплое htdemucs в масштабе. Где мы приводим цифры — мы указываем источник.
| Модель | Лучше всего подходит для | Стэмы | Качество (средний SDR) | Скорость |
|---|---|---|---|---|
| Spleeter | Real-time, низкие ресурсы, пакетная обработка | 2, 4 или 5 | ~5,9 dB (вокал) | ~100× быстрее real-time на GPU |
| htdemucs | Продакшен C2C-приложения, баланс качества и скорости | 4 или 6 | ~9,0 dB (среднее) | ~5–8× быстрее real-time на A40 |
| BS-RoFormer | Офлайн-работа с максимальной точностью, мастеринг, архив | 4 (обычно) | ~9,80 dB (среднее) | ~2–3× быстрее real-time на A40 |
Если Вы заберёте из этого поста только одну мысль: htdemucs — правильный дефолтный выбор почти для любого продукта, и Вам, вероятно, стоит запускать htdemucs_ft, а не дефолтный чекпоинт. На serverless-ценах Replicate все три варианта Demucs (default, 6s, ft) стоят примерно одинаково за вызов — но ft даёт заметно лучшее разделение. Мы не ожидали этого, когда начинали; это стало понятно только после анализа реальных счетов.
BS-RoFormer ощутимо лучше только на басу и только когда задержка не имеет значения. Spleeter — это модель 2019 года, работающая на железе 2026 года: быстро, но разрыв в качестве теперь слышен на слух.
Остальная часть поста объясняет, почему.
Качество разделения музыкальных источников обычно измеряется в Signal-to-Distortion Ratio (SDR), в децибелах. Чем выше, тем лучше. Эталонный датасет — MUSDB18 (или MUSDB18-HQ для аудио высокого качества), он содержит 150 полнометражных треков с отдельными стэмами для вокала, ударных, баса и «прочего».
Несколько практических ориентиров:
Всё, что выше ~9 dB на вокале, обычно уже за гранью, где средний слушатель сможет отличить разницу в слепом тесте. Дальнейший прирост — про граничные случаи: тяжёлая реверберация, дублированный вокал, сложные миксы.
Замечание про SI-SDR: В части недавних работ приводится SI-SDR (scale-invariant SDR), который корректируется на простые различия в уровне и более устойчив. Когда цифры в этом посте расходятся с другими источниками, причина обычно в определении метрики.
Выпущен исследовательской командой Deezer в 2019 году. Spleeter — это U-Net-архитектура, работающая в спектрограммной области. Доступны конфигурации на 2 стэма (вокал/аккомпанемент), 4 стэма (вокал/ударные/бас/прочее) и 5 стэмов (добавляется фортепиано).
На тот момент это был знаковый релиз — впервые кто-то смог запускать разделение источников приличного качества на ноутбучном CPU без лицензионных отчислений. Шесть лет спустя его обошла по качеству любая современная модель, но он остаётся самым быстрым и лёгким вариантом с большим отрывом.
Четвёртое поколение модели Demucs от исследовательской команды Meta AI. В отличие от Spleeter, htdemucs — гибридная модель: она работает одновременно во временной (waveform) и частотной (spectrogram) областях, а связывает их Transformer-бэкбон. Оригинальная статья сообщает о приросте +1,4 dB SDR относительно предыдущего поколения Demucs на MUSDB-HQ.
На практике важны два варианта:
htdemucs — стандартная модель на 4 стэмаhtdemucs_6s — вариант на 6 стэмов, добавляющий отдельные стэмы гитары и фортепианоЕсть также htdemucs_ft — дообученная версия, которая медленнее, но немного точнее по отдельным стэмам.
htdemucs показал конкурентный результат в Sony Music Demixing Challenge 2021 и остаётся дефолтом для большинства продакшен-пайплайнов, не гоняющихся за абсолютным SOTA.
Текущий state of the art на MUSDB18-HQ. BS-RoFormer (Band-Split RoPE Transformer) — это чисто трансформерная архитектура, в которой RNN-модули заменены иерархическим RoPE Transformer. Входная спектрограмма разбивается на несколько непересекающихся частотных поддиапазонов — это эксплуатирует тот факт, что разные инструменты занимают характерные диапазоны частот (бас внизу, тарелки наверху и т. д.).
BS-RoFormer, обученный на MUSDB18-HQ плюс 500 дополнительных песен, занял первое место в треке Music Source Separation на Sound Demixing Challenge 2023 (SDX23). Даже меньшая версия, обученная без дополнительных данных, показывает 9,80 dB среднего SDR на MUSDB18-HQ.
Минус: она медленнее и требовательнее к памяти, чем htdemucs, а готовые к продакшену открытые веса до сих пор разбросаны по разным сообществовым реализациям, а не собраны в один канонический релиз.
Именно здесь разваливается большинство сравнительных постов — они выбирают одну удобную цифру. Ниже — попеременные SDR из опубликованной литературы на MUSDB18-HQ (без дополнительных тренировочных данных, если не указано иное):
| Модель | Вокал | Ударные | Бас | Прочее | Среднее |
|---|---|---|---|---|---|
| Spleeter (4 стэма) | ~5,9 dB | ~5,9 dB | ~5,5 dB | ~4,5 dB | ~5,4 dB |
| htdemucs (default) | ~8,1 dB | ~8,4 dB | ~8,6 dB | ~5,9 dB | ~7,7 dB |
| htdemucs_ft (fine-tuned) | ~8,9 dB | ~9,5 dB | ~9,4 dB | ~6,4 dB | ~8,5 dB |
| BS-RoFormer (без доп. данных) | — | — | ~11,28 dB | — | ~9,80 dB |
| BS-RoFormer (+500 доп. песен) | — | — | — | — | ~9,76 dB+ |
Источники: Оценки Spleeter — из статьи Spleeter в JOSS и из бенчмарка разделения BeatsToRapOn. Оценки htdemucs — из Hybrid Spectrogram and Waveform Source Separation и Benchmarks and leaderboards for sound demixing tasks. Оценки BS-RoFormer — из результатов SDX23, описанных в той же работе.
Несколько наблюдений по таблице:
Разрыв Spleeter → htdemucs больше, чем разрыв htdemucs → BS-RoFormer. Переход с Spleeter на htdemucs даёт в среднем около +2,3 dB. Переход с htdemucs на BS-RoFormer даёт около +1,3 dB. Именно поэтому htdemucs — практический sweet spot для большинства сценариев.
Главный выигрыш BS-RoFormer — на басу. Разделение баса прыгает с ~8,6 dB (htdemucs) до ~11,28 dB (BS-RoFormer) — эту разницу слышно в слепом тесте. Прирост на вокале и ударных меньше. Если Вы делаете что-то, где специально нужен чистый бас (DJ-инструменты, транскрипция, обучение игре на бас-гитаре), BS-RoFormer стоит дополнительных вычислений. В остальном выигрыш — на грани восприятия.
htdemucs_ft недооценён. Многие сравнительные посты тестируют только дефолтный чекпоинт htdemucs. Дообученная версия (htdemucs_ft) закрывает большую часть разрыва до BS-RoFormer ценой примерно 4-кратного времени инференса — но на практике всё равно быстрее BS-RoFormer.
Приблизительное сквозное время на 3-минутную песню на одной GPU A40, измеренное от вызова API до готового к скачиванию результата:
| Модель | Сквозное время | Множитель real-time |
|---|---|---|
| Spleeter (4 стэма, GPU) | ~2–5 секунд | ~40–90× быстрее real-time |
| htdemucs (default, 4 стэма) | ~30–45 секунд | ~4–6× быстрее real-time |
| htdemucs_6s (6 стэмов) | ~40–60 секунд | ~3–5× быстрее real-time |
| htdemucs_ft (fine-tuned) | ~90–150 секунд | ~1,2–2× быстрее real-time |
| BS-RoFormer | ~60–120 секунд | ~1,5–3× быстрее real-time |
Замечания:
overlap у htdemucs — мощный рычаг по скорости. Дефолтный overlap=0.25 — разумный компромисс; overlap=0.5 чуть улучшает качество примерно за 2-кратную стоимость; overlap=0 заметно ускоряет, но добавляет слышимые артефакты на границах сегментов.Если Вы выпускаете потребительский продукт, в котором пользователи ждут результата, по нашему опыту, всё, что медленнее ~60 секунд для 3-минутной песни, начинает бить по конверсии. Это держит htdemucs (default и 6s) в приемлемой зоне и сдвигает htdemucs_ft и BS-RoFormer в сторону асинхронных/очередных потоков, где пользователь может вернуться позже.
В этом разделе большинство онлайн-сравнений полностью ошибаются. Публичные цены Replicate выглядят прямолинейно — A40 по $0.000725/секунду, умножьте на время инференса, готово. На практике этот расчёт расходится с реальным счётом примерно в 2 раза, и есть ещё более интересная деталь, о которой почти никто не упоминает.
Мы уже несколько месяцев держим htdemucs в продакшене на aistemsplitter.org, используя все три варианта Demucs — htdemucs (default, 4 стэма), htdemucs_6s (6 стэмов) и htdemucs_ft (fine-tuned). На инстансах A40 GPU в Replicate все три варианта в наших реальных счетах стоят примерно одинаково за вызов: примерно 22 вызова на $1, или около $0,045 за песню.
Над этим стоит остановиться, потому что это противоречит тому, что можно было бы ожидать из опубликованных времён инференса.
| Модель | Наивная стоимость (публичный прайс × время инференса) | Наша реально измеренная стоимость |
|---|---|---|
| Spleeter (GPU) | <$0.002 | <$0.005 |
| htdemucs (default) | ~$0.022 | ~$0.045 |
| htdemucs_6s (6 стэмов) | ~$0.029 | ~$0.045 |
| htdemucs_ft (fine-tuned) | ~$0.11 | ~$0.045 |
| BS-RoFormer | ~$0.065 | ~$0.06–0.10 (варьируется) |
Наивная модель ценообразования предполагает, что Вы платите только за чистое время инференса на GPU. В реальности каждый вызов Replicate также включает:
Эти накладные расходы по сути являются фиксированными на вызов — они не масштабируются от того, насколько сложна Ваша модель. Когда forward pass на GPU вырастает с 30 секунд (htdemucs default) до 90 секунд (htdemucs_ft), дополнительные вычисления влияют на счёт меньше, чем кажется, потому что пер-кол-оверхед уже съедает большую часть бюджета.
Практическое следствие: если Вы уже работаете на платформе htdemucs, экономических причин не использовать самый качественный вариант, который позволяет Ваш бюджет задержки, почти нет. Если Ваши пользователи готовы ждать 60 секунд — используйте htdemucs_6s (6 стэмов, обычная скорость). Если они готовы ждать 2 минуты — используйте htdemucs_ft (fine-tuned, по большинству стэмов близко к BS-RoFormer). Счёт будет тот же.
Это прямо противоположно выводу, к которому Вы пришли бы, читая академические статьи и публичный прайс GPU от Replicate. Это видно только когда Вы реально смотрите на свой счёт в конце месяца.
Если Вы моделируете unit-экономику продукта по разделению источников звука, закладывайте $0,04–$0,05 за песню как пол, независимо от выбранного варианта Demucs. Это задаёт:
Два важных уточнения:
| Модель | Доступные конфигурации стэмов | Примечания |
|---|---|---|
| Spleeter | 2, 4 или 5 стэмов | 5-стэмовая добавляет фортепиано (отдельная модель) |
| htdemucs | 4 или 6 стэмов | htdemucs_6s добавляет гитару и фортепиано |
| BS-RoFormer | 4 стэма (в основном); существуют сообществовые 6-стэмовые сборки | Качество падает на более редких стэмах гитары/фортепиано |
Именно здесь htdemucs_6s действительно стоит особняком. Если Ваш сценарий требует отдельных стэмов гитары или фортепиано (музыкальное образование, многодорожечный ремикс, транскрипция), htdemucs_6s — единственная широко развёрнутая модель, выдающая их в продакшен-качестве. 6-стэмовые варианты BS-RoFormer существуют в сообществе, но менее зрелые; канонический BS-RoFormer — это 4-стэмовая система.
Для сценариев «только вокал» или «только инструментал» (караоке-аудитория) все три модели работают нормально, и выбирать стоит по скорости, а не по качеству. Spleeter на 90× быстрее real-time выдаст Вам пригодный инструментал за миллисекунды.
После нескольких месяцев работы этих моделей в продакшене вот простое дерево решений, которое мы бы дали тому, кто начинает с нуля:
Выбирайте Spleeter, когда:
Выбирайте htdemucs, когда:
htdemucs_6s)Выбирайте BS-RoFormer, когда:
Не выбирайте ни одну из них, когда:
Мы держим htdemucs_6s в продакшене на aistemsplitter.org — хостед-версии 6-стэмового разделения, рассчитанной на тех, кому не хочется настраивать локальный тулчейн (между версиями PyTorch, версиями CUDA и адом аудио-зависимостей на это уходит у большинства людей полдня).
Несколько вещей, которые мы выяснили и которых нет в статьях:
htdemucs, htdemucs_6s или htdemucs_ft. Фиксированный оверхед на вызов поглощает предельную разницу в вычислениях между моделями. Один этот факт изменил наш подход к выбору модели: выбирайте по качеству, а не по теоретической стоимости вычислений, потому что разница в стоимости реально в счёте не проявляется.Если Вы хотите послушать, как звучит 6-стэмовый htdemucs на реальном аудио, не разворачивая тулчейн, — на нашем сайте есть бесплатные кредиты, чтобы попробовать несколько песен.
Несколько открытых вопросов, за которыми стоит следить в 2026 году:
Если Вы работаете в этой области и у Вас есть данные, которые нам были бы интересны — или Вы наткнулись на что-то в этих моделях, чего не видели мы, — напишите нам.
Последнее обновление: апрель 2026 года. Если Вы нашли ошибку в данных, цифрах SDR или в каком-либо из практических утверждений, пришлите нам правку — мы обновим пост с указанием авторства.
