
Практический воркфлоу для создания минусовок «всё, кроме вашего инструмента» — выбор модели (4 стема vs 6 стемов), пошаговые инструкции для вокала, гитары, баса и ударных, песни, которые плохо разделяются, и как их замедлить.
У большинства музыкантов в занятиях есть одна очевидная дыра: рядом нет группы.
Можно час играть песню под метроном, но вы не научитесь вытягивать припев, пока не сыграете её под настоящие барабаны, настоящий бас и настоящий вокал. Классическим ответом была покупка минусовок поштучно в iTunes — несколько сотен песен, по 1,99 $ за каждую, в основном плохие миксы тех песен, которые вы и играть-то не хотите.
ИИ-разделение источников убило этот рынок. Теперь можно взять любую песню, которая у вас есть (или любую ссылку на YouTube), и убрать из неё ваш инструмент за несколько минут. На выходе вы получаете минусовку, которая идеально совпадает с оригинальной записью, потому что она и есть оригинальная запись минус вы.
Этот пост проводит вас через практический воркфлоу для четырёх частых случаев — вокал, гитара, бас, ударные — а также рассказывает про песни, на которых трюк не работает, и что делать, когда их нужно замедлить.
Один аудиофайл на песню, в котором содержится вся оригинальная запись минус ваш инструмент. Закидывайте его в Spotify на телефоне, Anytune, портативный лупер или любой DAW. И играйте сверху.
Для вокалистов это будет караоке-инструментал. Для гитаристов — полная группа без гитары. Для барабанщиков — песня с дырой на месте вашей установки. Идея одна и та же, просто убираются разные стемы.
Это то самое решение, которое большинство людей принимает неправильно, и которое стоит вам полного повторного рендера.
| Ваш инструмент | Какую модель использовать | Почему |
|---|---|---|
| Вокал (пение) | 4 стема (по умолчанию) | Вокал чище всего отделяется в 4-стемовой модели |
| Бас | 4 стема (по умолчанию) | У баса есть отдельный выделенный стем |
| Ударные | 4 стема (по умолчанию) | У ударных есть отдельный выделенный стем |
| Гитара | 6 стемов | Без 6-стемовой модели гитара сваливается в «other» вместе с синтезаторами и струнными |
| Фортепиано | 6 стемов | По той же причине — фортепиано нужен отдельный выделенный стем |
| Саксофон, скрипка, медные | 4 стема (и смиритесь) | Выделенного стема нет; они живут в «other» |
6-стемовая модель — это та самая ошибка, которую мы видим чаще всего. Гитаристы по привычке выбирают 4 стема, а потом удивляются, почему их «инструментальная» минусовка всё ещё подтекает гитарой. Это не баг модели — в 4-стемовой модели просто нет выделенного стема для гитары. Выбирайте 6 стемов, если играете на гитаре или фортепиано. В остальных случаях выбирайте 4 — это быстрее и чуть чище на каждый стем.
Стоимость одинаковая в любом случае, так что оптимизировать тут нечего. (Мы расписали математику стоимости одного вызова здесь.)
Это самый простой случай, потому что «всё, кроме вокала» — это один клик.
Одна хитрость: если в песне есть заметные бэк-вокалы, которые вы тоже хотите убрать (наслоенные гармонии в духе The Beatles), караоке-мейкер их оставит. В публичном интернете нет ни одной модели, которая чисто отделяет главный вокал от бэк-вокалов — у них слишком много общего частотного содержания. Возьмите другую запись или смиритесь с бэк-вокалами в вашем инструментале.
Здесь как раз важно решение про 6 стемов.
На выходе получится полная группа минус гитара. Зациклите соло-секцию в любом аудиоплеере, который поддерживает A-B repeat, и отыграйте лик пятьдесят раз.
Ловушка с тайм-кипингом: появляется соблазн заодно замьютить и ударные ради «более чистого» микса для занятий. Не надо. Большинство музыкантов теряют тайминг без барабанов в качестве референса, а вся идея играть под запись — научиться класть свою партию ровно на грув.
Почти то же самое, что и с гитарой, но используйте 4 стема.
Специфическая для баса засада: песни с синтезаторным басом или плотным саб-басом часто разделяются криво — между стемом «bass» и «other». Если ваша басовая линия пропала из файла bass и слабо проступает в other, в оригинальном миксе бас прогнали через синтезатор или применили жёсткий sidechain. На уровне модели это не лечится — возьмите другую песню или сведите эти два стема обратно вместе и смиритесь с тем, что в вашей «минусовке» будет призрак баса.
Тот же поток, просто другой стем выкидываем.
Специфическая для ударных засада: в стеме «vocals» будет лёгкий треск тарелок (тарелки делят много верхних частот с сибилянтами вокала), а в стеме «other» иногда будут призрачные артефакты малого барабана. Для занятий это неважно — вы будете играть достаточно громко, чтобы никто не услышал подтекания. Если же вы пишете свою установку поверх минусовки, поставьте на всё, кроме слота для барабанов, фильтр верхних частот примерно на 80 Hz, и подтекание исчезнет.
Это та половина уравнения, о которой никто не говорит. Идеальная модель не может разделить аудио, которое не было записано с расчётом на разделение.
Хорошо работает:
Плохо работает:
Тест на дешёвых наушниках: если на дешёвых наушниках вы чётко слышите и можете назвать каждый инструмент, модель, скорее всего, сможет их разделить. Если на дешёвых наушниках микс звучит как стена звука, модель выдаст вам стену стемов.
Минусовка на оригинальном темпе редко полезна, пока вы только учитесь. Есть два способа с этим справиться.
Замедлить после разделения. Прогоните песню через стем-сплиттер обычным образом, сведите свою минусовку, а потом закиньте её в slowed + reverb maker. Нормально работает для замедления темпа примерно до 15 %. Дальше начинаете слышать артефакты тайм-стретча на тарелках.
Замедлить до разделения. Как ни странно, это часто даёт лучшее качество стемов. Модель обрабатывает то же самое аудио при меньшей плотности сэмплов в секунду, что даёт ей больше материала для работы с тяжёлыми транзиентами. Попробуйте так для песен, где обычное разделение получается мутным.
Для смены тональности используйте pitch changer на готовой минусовке. Не меняйте тональность до разделения — артефакты питч-шифта сбивают модель с толку, и вы получаете стемы похуже.
1. Не нормализуйте каждый стем перед сведением. Разделение на стемы уже сохраняет относительные громкости из оригинального микса. Если вы нормализуете каждый стем до 0 dB перед сведением, вы получите минусовку, в которой бас вдруг станет самым громким — совершенно неправильно по сравнению с оригинальной записью. Импортируйте сырые стемы, поставьте на всех дорожках усиление 0 dB, экспортируйте.
2. Не заморачивайтесь со стемами ради одной песни. Разделение на стемы имеет смысл для песен, которые вы будете играть по 50 раз. Для песни, которую вы сыграете пару раз, просто играйте под оригинальную запись на громкости, при которой слышно вас самих. Математика «5 минут обработки + 30 секунд сведения» окупается только на множестве занятий.
3. Не доверяйте первому разделению, если исходное аудио звучит плохо. Битрейт имеет значение. 128 kbps рип с YouTube разделится заметно хуже, чем 320 kbps MP3 или lossless-файл. Если результат звучит криво, проверьте сначала источник — у качества, которое можно вытянуть из низкобитрейтного источника, есть вполне реальный потолок.
Типичный воркфлоу занимает около трёх минут активного времени:
Итого: меньше 5 минут от «я хочу разучить эту песню» до «минусовка у меня на телефоне».
Если вам нужно убрать только вокал, караоке-мейкер полностью пропускает шаг ручного сведения. Для всего остального вся работа — это один drag-and-drop в Audacity.
Главное: модель — это лёгкая часть. Выбор правильной модели под ваш инструмент и выбор песни, записанной с чистым разделением, — вот два решения, от которых зависит, проведёте ли вы следующий час за занятиями или за траблшутингом.
Если хотите попробовать на какой-то песне, не разворачивая локальный тулчейн, AI Stem Splitter бесплатен на первые несколько минут аудио.


Step-by-step guide to removing vocals from any song with AI. No software to install, no signup for your first try. Get a clean instrumental in under 90 seconds.


Я прогнал один и тот же трек с Pixabay через LALAL.AI, Moises, vocalremover.org, Voice.ai, Fadr, UVR и собственный AI Stem Splitter. Это честное сравнение в наушниках плюс пошаговый гайд, как получить чистые шесть стэмов на выходе.


Практическое сравнение трёх ведущих открытых моделей разделения источников звука — SDR, стоимость инференса, реальная задержка и сценарии, в которых каждая из них действительно оправдана в продакшене.
