LogoAI Stem Splitter
ГлавнаяЦены
Справочник API

REST-эндпоинты, авторизация, callback-и, спецификация OpenAPI 3.1.

SDK

Семь официальных SDK (Node, Python, Java, Go, PHP, Swift, Lua).

Получить API-ключ

Создайте ключ в разделе Настройки → Разработчик.

Определение тональности

Определите темп и тональность — без регистрации

Изменение тона

Сдвигайте тональность вверх или вниз без изменения темпа.

Генератор голоса TikTok

Бесплатная AI-озвучка для коротких видео.

AI-удаление вокала

Удаляйте вокал для караоке, быстрых а капелл и предпросмотра шести дорожек из файлов или поддерживаемых ссылок

AI-экстрактор а капелла

Извлеките чистую а капеллу из любой песни для ремикса, мэшапа или DJ-сета.

Удаление вокала YouTube и SoundCloud

Вставьте ссылку с YouTube или SoundCloud и разделите трек на вокал, ударные, бас, пианино, гитару и прочие дорожки

Создание караоке

Уберите вокал из песни и получите чистую инструментальную минусовку для пения, репетиций и караоке-вечеров

БлогПанель управления
LogoAI Stem Splitter

Запускайте свой следующий AI-продукт быстрее с этим шаблоном.

GitHubEmail
Продукт
  • Возможности
  • Цены
  • FAQ
Бесплатные инструменты
  • Определение тональности
  • Изменение тона
  • Генератор голоса TikTok
AI-инструменты
  • AI-удаление вокала
  • AI-экстрактор а капелла
  • Удаление вокала YouTube и SoundCloud
  • Создание караоке
Ресурсы
  • Блог
  • API
Разработчикам
  • Справочник API
  • SDK
  • Получить API-ключ
Интеграции
  • Интеграция с n8n
Правовая информация
  • Политика cookie
  • Политика конфиденциальности
  • Условия использования
BadgeBadge
BadgeBadge
BadgeBadge
BadgeBadge
© 2026 AI Stem Splitter All Rights Reserved.
htdemucs vs BS-RoFormer vs Spleeter: бенчмарк разделения источников звука 2026
2026/04/28

htdemucs vs BS-RoFormer vs Spleeter: бенчмарк разделения источников звука 2026

Практическое сравнение трёх ведущих открытых моделей разделения источников звука — SDR, стоимость инференса, реальная задержка и сценарии, в которых каждая из них действительно оправдана в продакшене.

Если за последние двенадцать месяцев Вы хоть раз интересовались AI-разделением музыки, то наверняка натыкались на одни и те же три имени: Spleeter, htdemucs (Hybrid Transformer Demucs) и BS-RoFormer. Они появляются в каждом сравнительном посте, в каждой научной статье и в каждом туториале «как извлечь вокал» — но сравниваются обычно неправильно. В большинстве постов приводится одна цифра SDR из работы 2019 года, и на этом всё.

Это не очень полезно, если Вы пытаетесь выпустить продукт, построить пайплайн или выбрать модель для реального аудио.

Этот пост сравнивает три модели по тем характеристикам, которые действительно важны при развёртывании разделения источников звука:

  1. Качество — оценки SDR из рецензируемых источников, а не из ощущений
  2. Скорость инференса — то, чего Вы действительно будете ждать в продакшене
  3. Стоимость одной песни — на массовых GPU по ценам 2026 года
  4. Гибкость вывода — 2 стэма vs 4 стэма vs 6 стэмов
  5. Когда какая модель — правильный выбор — и когда нет

Всё, что ниже, основано на опубликованных бенчмарках и на нашем собственном продакшен-деплое htdemucs в масштабе. Где мы приводим цифры — мы указываем источник.


TL;DR (для тех, кому нужен ответ прямо сейчас)

МодельЛучше всего подходит дляСтэмыКачество (средний SDR)Скорость
SpleeterReal-time, низкие ресурсы, пакетная обработка2, 4 или 5~5,9 dB (вокал)~100× быстрее real-time на GPU
htdemucsПродакшен C2C-приложения, баланс качества и скорости4 или 6~9,0 dB (среднее)~5–8× быстрее real-time на A40
BS-RoFormerОфлайн-работа с максимальной точностью, мастеринг, архив4 (обычно)~9,80 dB (среднее)~2–3× быстрее real-time на A40

Если Вы заберёте из этого поста только одну мысль: htdemucs — правильный дефолтный выбор почти для любого продукта, и Вам, вероятно, стоит запускать htdemucs_ft, а не дефолтный чекпоинт. На serverless-ценах Replicate все три варианта Demucs (default, 6s, ft) стоят примерно одинаково за вызов — но ft даёт заметно лучшее разделение. Мы не ожидали этого, когда начинали; это стало понятно только после анализа реальных счетов.

BS-RoFormer ощутимо лучше только на басу и только когда задержка не имеет значения. Spleeter — это модель 2019 года, работающая на железе 2026 года: быстро, но разрыв в качестве теперь слышен на слух.

Остальная часть поста объясняет, почему.


Что мы понимаем под «качеством» — кратко об SDR

Качество разделения музыкальных источников обычно измеряется в Signal-to-Distortion Ratio (SDR), в децибелах. Чем выше, тем лучше. Эталонный датасет — MUSDB18 (или MUSDB18-HQ для аудио высокого качества), он содержит 150 полнометражных треков с отдельными стэмами для вокала, ударных, баса и «прочего».

Несколько практических ориентиров:

  • <6 dB SDR: заметные артефакты, «фазовый» вокал, слышимое просачивание между стэмами
  • 6–8 dB SDR: пригодно для бытовых задач (караоке, разбор песен, наброски идей)
  • 8–10 dB SDR: достаточно чисто для контент-создания и большинства DJ-приложений
  • >10 dB SDR: для среднего слушателя приближается к прозрачному; пригодно для релизного качества после лёгкой постобработки

Всё, что выше ~9 dB на вокале, обычно уже за гранью, где средний слушатель сможет отличить разницу в слепом тесте. Дальнейший прирост — про граничные случаи: тяжёлая реверберация, дублированный вокал, сложные миксы.

Замечание про SI-SDR: В части недавних работ приводится SI-SDR (scale-invariant SDR), который корректируется на простые различия в уровне и более устойчив. Когда цифры в этом посте расходятся с другими источниками, причина обычно в определении метрики.


Три модели — коротко

Spleeter (Deezer, 2019)

Выпущен исследовательской командой Deezer в 2019 году. Spleeter — это U-Net-архитектура, работающая в спектрограммной области. Доступны конфигурации на 2 стэма (вокал/аккомпанемент), 4 стэма (вокал/ударные/бас/прочее) и 5 стэмов (добавляется фортепиано).

На тот момент это был знаковый релиз — впервые кто-то смог запускать разделение источников приличного качества на ноутбучном CPU без лицензионных отчислений. Шесть лет спустя его обошла по качеству любая современная модель, но он остаётся самым быстрым и лёгким вариантом с большим отрывом.

htdemucs (Meta AI, 2022)

Четвёртое поколение модели Demucs от исследовательской команды Meta AI. В отличие от Spleeter, htdemucs — гибридная модель: она работает одновременно во временной (waveform) и частотной (spectrogram) областях, а связывает их Transformer-бэкбон. Оригинальная статья сообщает о приросте +1,4 dB SDR относительно предыдущего поколения Demucs на MUSDB-HQ.

На практике важны два варианта:

  • htdemucs — стандартная модель на 4 стэма
  • htdemucs_6s — вариант на 6 стэмов, добавляющий отдельные стэмы гитары и фортепиано

Есть также htdemucs_ft — дообученная версия, которая медленнее, но немного точнее по отдельным стэмам.

htdemucs показал конкурентный результат в Sony Music Demixing Challenge 2021 и остаётся дефолтом для большинства продакшен-пайплайнов, не гоняющихся за абсолютным SOTA.

BS-RoFormer (2023)

Текущий state of the art на MUSDB18-HQ. BS-RoFormer (Band-Split RoPE Transformer) — это чисто трансформерная архитектура, в которой RNN-модули заменены иерархическим RoPE Transformer. Входная спектрограмма разбивается на несколько непересекающихся частотных поддиапазонов — это эксплуатирует тот факт, что разные инструменты занимают характерные диапазоны частот (бас внизу, тарелки наверху и т. д.).

BS-RoFormer, обученный на MUSDB18-HQ плюс 500 дополнительных песен, занял первое место в треке Music Source Separation на Sound Demixing Challenge 2023 (SDX23). Даже меньшая версия, обученная без дополнительных данных, показывает 9,80 dB среднего SDR на MUSDB18-HQ.

Минус: она медленнее и требовательнее к памяти, чем htdemucs, а готовые к продакшену открытые веса до сих пор разбросаны по разным сообществовым реализациям, а не собраны в один канонический релиз.


1. Бенчмарк качества (опубликованные оценки SDR)

Именно здесь разваливается большинство сравнительных постов — они выбирают одну удобную цифру. Ниже — попеременные SDR из опубликованной литературы на MUSDB18-HQ (без дополнительных тренировочных данных, если не указано иное):

МодельВокалУдарныеБасПрочееСреднее
Spleeter (4 стэма)~5,9 dB~5,9 dB~5,5 dB~4,5 dB~5,4 dB
htdemucs (default)~8,1 dB~8,4 dB~8,6 dB~5,9 dB~7,7 dB
htdemucs_ft (fine-tuned)~8,9 dB~9,5 dB~9,4 dB~6,4 dB~8,5 dB
BS-RoFormer (без доп. данных)——~11,28 dB—~9,80 dB
BS-RoFormer (+500 доп. песен)————~9,76 dB+

Источники: Оценки Spleeter — из статьи Spleeter в JOSS и из бенчмарка разделения BeatsToRapOn. Оценки htdemucs — из Hybrid Spectrogram and Waveform Source Separation и Benchmarks and leaderboards for sound demixing tasks. Оценки BS-RoFormer — из результатов SDX23, описанных в той же работе.

Несколько наблюдений по таблице:

Разрыв Spleeter → htdemucs больше, чем разрыв htdemucs → BS-RoFormer. Переход с Spleeter на htdemucs даёт в среднем около +2,3 dB. Переход с htdemucs на BS-RoFormer даёт около +1,3 dB. Именно поэтому htdemucs — практический sweet spot для большинства сценариев.

Главный выигрыш BS-RoFormer — на басу. Разделение баса прыгает с ~8,6 dB (htdemucs) до ~11,28 dB (BS-RoFormer) — эту разницу слышно в слепом тесте. Прирост на вокале и ударных меньше. Если Вы делаете что-то, где специально нужен чистый бас (DJ-инструменты, транскрипция, обучение игре на бас-гитаре), BS-RoFormer стоит дополнительных вычислений. В остальном выигрыш — на грани восприятия.

htdemucs_ft недооценён. Многие сравнительные посты тестируют только дефолтный чекпоинт htdemucs. Дообученная версия (htdemucs_ft) закрывает большую часть разрыва до BS-RoFormer ценой примерно 4-кратного времени инференса — но на практике всё равно быстрее BS-RoFormer.


2. Скорость инференса (на практике, а не в теории)

Приблизительное сквозное время на 3-минутную песню на одной GPU A40, измеренное от вызова API до готового к скачиванию результата:

МодельСквозное времяМножитель real-time
Spleeter (4 стэма, GPU)~2–5 секунд~40–90× быстрее real-time
htdemucs (default, 4 стэма)~30–45 секунд~4–6× быстрее real-time
htdemucs_6s (6 стэмов)~40–60 секунд~3–5× быстрее real-time
htdemucs_ft (fine-tuned)~90–150 секунд~1,2–2× быстрее real-time
BS-RoFormer~60–120 секунд~1,5–3× быстрее real-time

Замечания:

  • Сквозное время ≠ чистое время инференса на GPU. Публичные бенчмарки обычно репортят только forward pass модели на «чистых» входах. Реальное продакшен-время включает холодный старт контейнера (5–30 с на serverless), I/O аудио (скачивание файла, предобработка ffmpeg) и аплоад результата. Наши цифры выше — сквозные на Replicate.
  • Spleeter играет в другой лиге по скорости. Это единственная из трёх моделей, которая комфортно работает быстрее real-time даже на одном CPU.
  • Параметр overlap у htdemucs — мощный рычаг по скорости. Дефолтный overlap=0.25 — разумный компромисс; overlap=0.5 чуть улучшает качество примерно за 2-кратную стоимость; overlap=0 заметно ускоряет, но добавляет слышимые артефакты на границах сегментов.
  • Эталонные реализации BS-RoFormer сильно расходятся по скорости в зависимости от того, чей чекпоинт и какой код инференса Вы используете. Цифры выше — для популярной в сообществе сборки MVSep BS-RoFormer SW.

Если Вы выпускаете потребительский продукт, в котором пользователи ждут результата, по нашему опыту, всё, что медленнее ~60 секунд для 3-минутной песни, начинает бить по конверсии. Это держит htdemucs (default и 6s) в приемлемой зоне и сдвигает htdemucs_ft и BS-RoFormer в сторону асинхронных/очередных потоков, где пользователь может вернуться позже.


3. Стоимость одной песни (экономика продакшен-деплоя)

В этом разделе большинство онлайн-сравнений полностью ошибаются. Публичные цены Replicate выглядят прямолинейно — A40 по $0.000725/секунду, умножьте на время инференса, готово. На практике этот расчёт расходится с реальным счётом примерно в 2 раза, и есть ещё более интересная деталь, о которой почти никто не упоминает.

Главный вывод из нашего продакшен-деплоя

Мы уже несколько месяцев держим htdemucs в продакшене на aistemsplitter.org, используя все три варианта Demucs — htdemucs (default, 4 стэма), htdemucs_6s (6 стэмов) и htdemucs_ft (fine-tuned). На инстансах A40 GPU в Replicate все три варианта в наших реальных счетах стоят примерно одинаково за вызов: примерно 22 вызова на $1, или около $0,045 за песню.

Над этим стоит остановиться, потому что это противоречит тому, что можно было бы ожидать из опубликованных времён инференса.

МодельНаивная стоимость (публичный прайс × время инференса)Наша реально измеренная стоимость
Spleeter (GPU)<$0.002<$0.005
htdemucs (default)~$0.022~$0.045
htdemucs_6s (6 стэмов)~$0.029~$0.045
htdemucs_ft (fine-tuned)~$0.11~$0.045
BS-RoFormer~$0.065~$0.06–0.10 (варьируется)

Почему все три варианта Demucs сходятся к одной стоимости

Наивная модель ценообразования предполагает, что Вы платите только за чистое время инференса на GPU. В реальности каждый вызов Replicate также включает:

  • Время холодного старта контейнера (5–30 секунд при масштабировании с нуля)
  • Загрузку весов модели в память GPU
  • Скачивание аудиофайла и предобработку через ffmpeg
  • Кодирование результата и аплоад обратно в хранилище
  • Минимальную тарифицируемую длительность вызова

Эти накладные расходы по сути являются фиксированными на вызов — они не масштабируются от того, насколько сложна Ваша модель. Когда forward pass на GPU вырастает с 30 секунд (htdemucs default) до 90 секунд (htdemucs_ft), дополнительные вычисления влияют на счёт меньше, чем кажется, потому что пер-кол-оверхед уже съедает большую часть бюджета.

Практическое следствие: если Вы уже работаете на платформе htdemucs, экономических причин не использовать самый качественный вариант, который позволяет Ваш бюджет задержки, почти нет. Если Ваши пользователи готовы ждать 60 секунд — используйте htdemucs_6s (6 стэмов, обычная скорость). Если они готовы ждать 2 минуты — используйте htdemucs_ft (fine-tuned, по большинству стэмов близко к BS-RoFormer). Счёт будет тот же.

Это прямо противоположно выводу, к которому Вы пришли бы, читая академические статьи и публичный прайс GPU от Replicate. Это видно только когда Вы реально смотрите на свой счёт в конце месяца.

Следствия для unit-экономики

Если Вы моделируете unit-экономику продукта по разделению источников звука, закладывайте $0,04–$0,05 за песню как пол, независимо от выбранного варианта Demucs. Это задаёт:

  • Потолок бесплатного тарифа — при 10 бесплатных минутах на пользователя (≈3 бесплатные песни) Вы поглощаете примерно $0,13 на регистрацию ещё до какой-либо конверсии
  • Минимальную жизнеспособную цену пакета кредитов — всё, что дешевле ~$0,10 за песню в розницу, не оставляет маржи на комиссию Stripe, поддержку и инфраструктурные накладные
  • Стоимость массовой обработки — при 10 000 песен в месяц это около $450 чистого инференса, без учёта хранилища, трафика и прочей инфраструктуры

Два важных уточнения:

  1. На низком трафике холодные старты доминируют. Если Ваш сервис обрабатывает меньше нескольких сотен песен в день, оверхед холодного старта становится пропорционально больше. На очень низком трафике фактическая стоимость может дрейфовать вверх до $0,06–$0,07 за песню.
  2. Self-hosting окупается только выше ~$2k/мес расходов на инференс. Пока у Вас нет достаточно устойчивого трафика, чтобы держать выделенный GPU загруженным более чем на 40%, serverless GPU дешевле RunPod, Vast.ai или собственного колокейшена. Мы мерили это напрямую — на протяжении всего запускового периода Replicate оставался дешевле выделенной инфраструктуры.

4. Гибкость вывода (количество стэмов и формат)

МодельДоступные конфигурации стэмовПримечания
Spleeter2, 4 или 5 стэмов5-стэмовая добавляет фортепиано (отдельная модель)
htdemucs4 или 6 стэмовhtdemucs_6s добавляет гитару и фортепиано
BS-RoFormer4 стэма (в основном); существуют сообществовые 6-стэмовые сборкиКачество падает на более редких стэмах гитары/фортепиано

Именно здесь htdemucs_6s действительно стоит особняком. Если Ваш сценарий требует отдельных стэмов гитары или фортепиано (музыкальное образование, многодорожечный ремикс, транскрипция), htdemucs_6s — единственная широко развёрнутая модель, выдающая их в продакшен-качестве. 6-стэмовые варианты BS-RoFormer существуют в сообществе, но менее зрелые; канонический BS-RoFormer — это 4-стэмовая система.

Для сценариев «только вокал» или «только инструментал» (караоке-аудитория) все три модели работают нормально, и выбирать стоит по скорости, а не по качеству. Spleeter на 90× быстрее real-time выдаст Вам пригодный инструментал за миллисекунды.


5. Когда какую модель выбрать

После нескольких месяцев работы этих моделей в продакшене вот простое дерево решений, которое мы бы дали тому, кто начинает с нуля:

Выбирайте Spleeter, когда:

  • Вам нужно обрабатывать аудио в реальном времени или близко к real-time
  • Вы работаете на CPU или ограниченном железе
  • Вам нужна пропускная способность пакетной обработки (например, извлечение признаков по музыкальному каталогу)
  • Планка качества — «приемлемо», а не «хорошо»

Выбирайте htdemucs, когда:

  • Вы строите потребительский продукт, в котором пользователи ждут менее 60 секунд
  • Вам нужны 6 стэмов (используйте htdemucs_6s)
  • Вы хотите лучшее соотношение качество/доллар в продакшене
  • Вы не хотите поддерживать собственный код инференса (модель хорошо поддерживается на каждой крупной платформе сервинга моделей)

Выбирайте BS-RoFormer, когда:

  • Вы запускаете офлайн- или batch-задачи, где 1–2 минуты на песню — нормально
  • Качество баса специально важно (DJ-инструменты, транскрипция, аудиоанализ)
  • Вы делаете работу релизного качества и предельный SDR имеет значение
  • Вы готовы вкладывать инженерное время в то, чтобы поспевать за релизами моделей от сообщества

Не выбирайте ни одну из них, когда:

  • Вам нужно только удаление вокала для караоке. Используйте Spleeter 2-stem; разница в качестве не имеет значения для подпевочного аудио, которое будет играть через микрофон.
  • Вам нужно разделение стэмов в реальном времени в DJ-приложении. Ни одна из этих моделей не работает в real-time на потребительском железе. Используйте DAW со встроенным разделением в реальном времени (Ableton 12 и т. п.) или предобрабатывайте треки офлайн.

Как это выглядит на практике

Мы держим htdemucs_6s в продакшене на aistemsplitter.org — хостед-версии 6-стэмового разделения, рассчитанной на тех, кому не хочется настраивать локальный тулчейн (между версиями PyTorch, версиями CUDA и адом аудио-зависимостей на это уходит у большинства людей полдня).

Несколько вещей, которые мы выяснили и которых нет в статьях:

  • Реальная продакшен-стоимость примерно в 2 раза выше наивных расчётов и примерно одинакова между вариантами Demucs. Публичный прайс GPU × время инференса даёт цифру, игнорирующую платформенные накладные. Наш реальный счёт Replicate выходит примерно в $0,045 за песню — и это одно и то же число, запускаем ли мы htdemucs, htdemucs_6s или htdemucs_ft. Фиксированный оверхед на вызов поглощает предельную разницу в вычислениях между моделями. Один этот факт изменил наш подход к выбору модели: выбирайте по качеству, а не по теоретической стоимости вычислений, потому что разница в стоимости реально в счёте не проявляется.
  • Конвертация формата важнее самой модели. htdemucs принимает на вход только WAV. Пользователи загружают MP3, FLAC, M4A, OGG и всё более странные контейнеры WebM. Слой предобработки на ffmpeg нетривиально довести до ума в масштабе.
  • Заглатывание ссылок YouTube/SoundCloud — это половина UX-выигрыша. Просьба к пользователю скачать файл и загрузить его теряет около 40% людей. Прямой приём по URL через yt-dlp капризен в сопровождении (видео с возрастным ограничением, региональные блоки, прямые трансляции), но того стоит.
  • 6-стэмовый кейс — это то, где пользователи видят магию. Когда человек впервые слышит изолированную гитару отдельно от фортепиано в своей любимой песне, он рассказывает об этом друзьям. 4-стэмовый кейс — «прикольно»; 6-стэмовый — «погоди, как такое вообще возможно».

Если Вы хотите послушать, как звучит 6-стэмовый htdemucs на реальном аудио, не разворачивая тулчейн, — на нашем сайте есть бесплатные кредиты, чтобы попробовать несколько песен.


Что дальше в этой области

Несколько открытых вопросов, за которыми стоит следить в 2026 году:

  • Станет ли стандартом 8-стэмовый набор (вокал/бэк-вокал/ударные/бас/гитара/фортепиано/синтезатор/прочее)? Сообществовые fine-tunes движутся в этом направлении, но бутылочное горлышко — тренировочные данные для отдельных стэмов синтезаторов и бэк-вокалов.
  • Real-time на потребительском железе? Ни одна из текущих открытых моделей не работает на скорости реального времени на CPU при приемлемом качестве. Это изменится с дистилляцией моделей, но, вероятно, не в 2026 году.
  • Многоязычное / незападное разделение вокала. В большинстве опубликованных бенчмарков доминирует англоязычный поп и рок. На языках с другими вокальными техниками мы видим заметно более низкое качество (мандаринский, кантопоп с тяжёлым автотюном, болливудские многоголосные стопки). Это реальный пробел в области, а не проблема развёртывания модели.

Если Вы работаете в этой области и у Вас есть данные, которые нам были бы интересны — или Вы наткнулись на что-то в этих моделях, чего не видели мы, — напишите нам.


Литература

  1. htdemucs — Rouard, S., Massa, F., Défossez, A. Hybrid Transformers for Music Source Separation. arXiv:2211.08553
  2. Demucs v4 (hybrid) — Défossez, A. Hybrid Spectrogram and Waveform Source Separation. arXiv:2111.03600
  3. BS-RoFormer — Lu, W.-T., Wang, J.-C., et al. Music Source Separation with Band-Split RoPE Transformer. SDX23 Challenge results
  4. Spleeter — Hennequin, R., Khlif, A., Voituret, F., Moussallam, M. Spleeter: a fast and efficient music source separation tool with pre-trained models. JOSS 2020
  5. Датасет MUSDB18 — Rafii, Z., Liutkus, A., Stöter, F.-R., Mimilakis, S. I., Bittner, R. The MUSDB18 corpus for music separation. Zenodo
  6. Sound Demixing Challenge 2023 — Mitsufuji et al., результаты SDX23
  7. Лидерборд моделей MVSep — mvsep.com/en/algorithms

Последнее обновление: апрель 2026 года. Если Вы нашли ошибку в данных, цифрах SDR или в каком-либо из практических утверждений, пришлите нам правку — мы обновим пост с указанием авторства.

Все статьи

Автор

avatar for AI Stem Splitter Team
AI Stem Splitter Team

Категории