htdemucs vs BS-RoFormer vs Spleeter: 2026 음원 분리 벤치마크

지난 12개월 동안 AI 음악 분리에 조금이라도 관심을 두셨다면 같은 세 이름을 마주치셨을 겁니다. Spleeter, htdemucs (Hybrid Transformer Demucs), 그리고 BS-RoFormer. 이 세 모델은 모든 비교 글, 모든 연구 논문, 모든 "보컬 추출 방법" 튜토리얼에 등장하지만, 비교하는 방식은 대개 잘못되어 있습니다. 대부분의 글은 2019년 논문에 실린 SDR 수치 하나를 인용하고 그걸로 끝냅니다.

제품을 출시하거나 파이프라인을 구축하거나 실제 오디오에 쓸 모델을 고르려는 사람에게는 그다지 도움이 되지 않습니다.

이 글에서는 음원 분리를 실제로 배포할 때 의미 있는 다음 다섯 가지 측면에서 세 모델을 비교합니다.

품질 — 분위기가 아니라 동료 심사를 거친 SDR 점수
추론 속도 — 프로덕션에서 실제로 기다리게 되는 시간
곡당 비용 — 2026년 가격 기준의 범용 GPU에서 실행했을 때
출력 유연성 — 2 스템 vs 4 스템 vs 6 스템
각 모델이 정답인 경우 — 그리고 정답이 아닌 경우

아래의 모든 내용은 발표된 벤치마크와 우리가 htdemucs를 대규모로 운영하며 얻은 자체 프로덕션 데이터를 기반으로 합니다. 수치를 인용할 때는 출처도 함께 밝힙니다.

TL;DR (지금 답이 필요한 분들을 위해)

모델	적합한 용도	출력 스템	품질 (평균 SDR)	속도
Spleeter	실시간, 저자원, 배치 처리	2, 4, 또는 5	~5.9 dB (보컬)	GPU에서 ~100배 실시간
htdemucs	프로덕션 C2C 앱, 품질과 속도의 균형	4 또는 6	~9.0 dB (평균)	A40에서 ~5–8배 실시간
BS-RoFormer	최고 충실도의 오프라인 작업, 마스터링, 아카이빙	4 (일반적)	~9.80 dB (평균)	A40에서 ~2–3배 실시간

이 글에서 단 한 가지만 가져가야 한다면 이것입니다. htdemucs는 거의 모든 제품에 적합한 기본 선택지이며, 기본 체크포인트보다는 htdemucs_ft를 돌리는 편이 낫습니다. Replicate의 서버리스 가격으로 보면 세 가지 Demucs 변형(default, 6s, ft) 모두 호출당 비용이 사실상 같습니다. 그런데도 ft는 분리 품질이 의미 있게 더 좋습니다. 우리도 처음에는 예상하지 못했고, 실제 청구 내역을 들여다본 뒤에야 분명해진 사실입니다.

BS-RoFormer는 베이스에서만, 그리고 지연 시간이 중요하지 않을 때만 의미 있게 더 좋습니다. Spleeter는 2019년 모델이 2026년 하드웨어 위에서 도는 것입니다. 빠르긴 하지만 품질 격차는 이제 귀로 들릴 정도입니다.

이 글의 나머지는 그 이유를 설명합니다.

"품질"이 무엇을 뜻하는가 — SDR 짧게 정리

음원 분리 품질은 보통 Signal-to-Distortion Ratio (SDR), 즉 데시벨 단위로 측정합니다. 높을수록 좋습니다. 기준 데이터셋은 MUSDB18 (또는 고품질 오디오 버전인 MUSDB18-HQ)이며, 보컬, 드럼, 베이스, "기타(other)" 스템이 분리된 150곡의 풀 트랙이 들어 있습니다.

실용적인 기준점 몇 가지를 보겠습니다.

SDR 6 dB 미만: 인지 가능한 아티팩트, "위상이 일그러진" 보컬, 스템 간의 들리는 누설
SDR 6–8 dB: 가벼운 용도(노래방, 곡 학습, 아이디어 스케치)에 사용할 만함
SDR 8–10 dB: 콘텐츠 제작과 대부분의 DJ 용도에 충분히 깨끗함
SDR 10 dB 초과: 일반 청취자에게는 거의 투명한 수준에 근접; 가벼운 후처리 후 릴리스 품질 작업에도 적합

보컬에서 9 dB를 넘으면 대부분의 청취자가 블라인드 테스트에서 차이를 구분하기 어려운 지점에 들어섭니다. 이 이상의 향상은 엣지 케이스(과한 리버브, 더블링된 보컬, 복잡한 믹스)에 관한 이야기입니다.

SI-SDR에 관한 메모: 최근 일부 논문은 단순한 게인 차이를 보정해 더 견고한 SI-SDR (scale-invariant SDR)을 보고합니다. 이 글의 수치가 다른 자료와 다를 때는 보통 메트릭 정의의 차이가 이유입니다.

세 모델 간단 소개

Spleeter (Deezer, 2019)

2019년 Deezer 연구팀이 공개한 Spleeter는 스펙트로그램 도메인에서 동작하는 U-Net 아키텍처입니다. 2 스템(보컬/반주), 4 스템(보컬/드럼/베이스/기타), 5 스템(피아노 추가) 구성으로 제공됩니다.

당시에는 획기적인 릴리스였습니다. 라이선스 비용 없이 노트북 CPU만으로 충분히 쓸 만한 음원 분리를 돌릴 수 있었던 첫 모델이었습니다. 6년이 지난 지금, 품질 면에서는 모든 현대 모델에 추월당했지만 속도와 가벼움에서는 여전히 압도적인 차이로 가장 빠르고 가벼운 선택지로 남아 있습니다.

htdemucs (Meta AI, 2022)

Meta AI 연구팀이 만든 4세대 Demucs 모델입니다. Spleeter와 달리 htdemucs는 하이브리드 모델입니다. 시간 도메인(파형)과 주파수 도메인(스펙트로그램) 양쪽에서 동작하며, Transformer 백본이 둘을 연결합니다. 원 논문은 MUSDB-HQ에서 이전 세대 Demucs 대비 1.4 dB SDR 향상을 보고합니다.

실무에서 의미 있는 변형은 두 가지입니다.

htdemucs — 표준 4 스템 모델
htdemucs_6s — 분리된 기타와 피아노 스템을 추가한 6 스템 변형

여기에 더해 htdemucs_ft도 있습니다. 더 느리지만 개별 스템에서 약간 더 정확한 파인튜닝 버전입니다.

htdemucs는 2021년 Sony Music Demixing Challenge에서 경쟁력 있는 성적을 거뒀으며, 절대적인 SOTA를 추구하지 않는 대부분의 프로덕션 파이프라인에서는 여전히 기본 선택입니다.

BS-RoFormer (2023)

MUSDB18-HQ에서 현재 최고 성능을 보이는 BS-RoFormer (Band-Split RoPE Transformer)는 RNN 모듈을 계층적 RoPE Transformer로 대체한 순수 Transformer 아키텍처입니다. 입력 스펙트로그램을 겹치지 않는 여러 주파수 서브밴드로 나눠, 서로 다른 악기가 특징적인 주파수 대역을 차지한다는 사실(베이스는 낮고, 심벌은 높고 등)을 활용합니다.

MUSDB18-HQ에 추가 500곡을 더해 학습한 BS-RoFormer는 Sound Demixing Challenge 2023 (SDX23)의 Music Source Separation 트랙에서 1위를 차지했습니다. 추가 데이터 없이 학습한 더 작은 버전조차 MUSDB18-HQ에서 평균 9.80 dB SDR을 보고합니다.

단점도 있습니다. htdemucs보다 느리고 메모리도 더 많이 필요하며, 프로덕션에 바로 쓸 수 있는 공개 가중치가 단일한 정식 릴리스가 아니라 커뮤니티 구현물 곳곳에 흩어져 있습니다.

1. 품질 벤치마크 (발표된 SDR 점수)

대부분의 비교 글이 무너지는 지점입니다. 한 숫자만 골라 인용하기 때문입니다. 다음은 발표된 문헌에서 가져온 MUSDB18-HQ 기준 스템별 SDR 점수입니다(특별히 표시하지 않은 한 추가 학습 데이터 없음).

모델	보컬	드럼	베이스	기타	평균
Spleeter (4 스템)	~5.9 dB	~5.9 dB	~5.5 dB	~4.5 dB	~5.4 dB
htdemucs (default)	~8.1 dB	~8.4 dB	~8.6 dB	~5.9 dB	~7.7 dB
htdemucs_ft (파인튜닝)	~8.9 dB	~9.5 dB	~9.4 dB	~6.4 dB	~8.5 dB
BS-RoFormer (추가 데이터 없음)	—	—	~11.28 dB	—	~9.80 dB
BS-RoFormer (추가 500곡 포함)	—	—	—	—	~9.76 dB+

출처: Spleeter 점수는 Spleeter JOSS 논문과 BeatsToRapOn 분리 벤치마크에서 가져왔습니다. htdemucs 점수는 Hybrid Spectrogram and Waveform Source Separation과 Benchmarks and leaderboards for sound demixing tasks에서 가져왔습니다. BS-RoFormer 점수는 같은 논문에 정리된 SDX23 결과에서 가져왔습니다.

이 표에서 몇 가지를 관찰할 수 있습니다.

Spleeter → htdemucs 격차가 htdemucs → BS-RoFormer 격차보다 큽니다. Spleeter에서 htdemucs로 옮기면 평균 약 +2.3 dB를 얻습니다. htdemucs에서 BS-RoFormer로 옮기면 약 +1.3 dB를 얻습니다. 이것이 htdemucs가 대부분의 사용 사례에서 실용적인 스위트 스폿인 이유입니다.

BS-RoFormer의 가장 큰 승부처는 베이스입니다. 베이스 분리는 ~8.6 dB(htdemucs)에서 ~11.28 dB(BS-RoFormer)로 뛰어오릅니다. 블라인드 테스트에서도 들리는 차이입니다. 보컬과 드럼에서의 향상폭은 더 작습니다. 깨끗한 베이스가 특히 필요한 무언가(DJ 도구, 채보, 베이스 연주자를 위한 음악 교육)를 만들고 있다면 BS-RoFormer는 추가 컴퓨팅을 들일 가치가 있습니다. 그 외에는 향상폭이 인지 한계 언저리에 있습니다.

htdemucs_ft는 과소평가되어 있습니다. 많은 비교 글이 기본 htdemucs 체크포인트만 테스트합니다. 파인튜닝 버전(htdemucs_ft)은 추론 시간이 약 4배로 늘어나는 대신 BS-RoFormer와의 격차 대부분을 메우며, 실무에서는 여전히 BS-RoFormer보다 빠릅니다.

2. 추론 속도 (이론이 아닌 실제 환경 기준)

A40 GPU 한 장에서 3분짜리 곡을 처리할 때 API 호출부터 다운로드 가능 출력까지의 대략적인 엔드 투 엔드 시간입니다.

모델	엔드 투 엔드 시간	실시간 배수
Spleeter (4 스템, GPU)	~2–5초	~40–90배 실시간
htdemucs (default, 4 스템)	~30–45초	~4–6배 실시간
htdemucs_6s (6 스템)	~40–60초	~3–5배 실시간
htdemucs_ft (파인튜닝)	~90–150초	~1.2–2배 실시간
BS-RoFormer	~60–120초	~1.5–3배 실시간

참고:

엔드 투 엔드 시간 ≠ 순수 GPU 추론 시간. 공개 벤치마크는 보통 깨끗한 입력에 대한 모델 forward pass만 보고합니다. 실제 프로덕션 시간에는 컨테이너 콜드 스타트(서버리스에서 5–30초), 오디오 I/O(파일 다운로드, ffmpeg 전처리), 결과 업로드까지 포함됩니다. 위의 수치는 Replicate에서의 엔드 투 엔드 측정값입니다.
속도에서는 Spleeter가 다른 리그에 있습니다. CPU만으로도 실시간보다 충분히 빠르게 도는 유일한 모델입니다.
htdemucs의 overlap 파라미터는 큰 속도 레버입니다. 기본값 overlap=0.25는 합리적인 트레이드오프이며, overlap=0.5로 두면 비용은 약 2배가 되지만 품질이 약간 향상됩니다. overlap=0으로 두면 눈에 띄게 빨라지지만 세그먼트 경계에서 들리는 청크 아티팩트가 생깁니다.
BS-RoFormer의 레퍼런스 구현은 누가 만든 체크포인트와 추론 코드를 쓰느냐에 따라 속도가 크게 달라집니다. 위의 수치는 커뮤니티에서 인기 있는 MVSep BS-RoFormer SW 빌드 기준입니다.

사용자가 결과를 기다리는 소비자용 제품을 출시한다면, 우리 경험상 3분짜리 곡에 ~60초보다 오래 걸리는 순간부터 전환율이 떨어지기 시작합니다. 이 기준선 덕분에 htdemucs(default와 6s)는 허용 범위 안에 머물고, htdemucs_ft와 BS-RoFormer는 사용자가 나중에 다시 와서 결과를 받아가는 비동기/큐 기반 흐름 쪽으로 밀려납니다.

3. 곡당 비용 (프로덕션 배포 경제학)

온라인 비교 글들이 가장 많이 틀리는 부분이 이 섹션입니다. Replicate의 공개 가격은 단순해 보입니다. A40가 초당 $0.000725, 추론 시간을 곱하면 끝. 실무에서는 그 계산이 실제 청구액과 약 2배 차이가 나며, 거의 어떤 비교 글도 언급하지 않는 더 흥미로운 함정도 하나 있습니다.

우리 프로덕션 배포에서 나온 핵심 발견

우리는 aistemsplitter.org에서 세 가지 Demucs 변형 — htdemucs (default 4 스템), htdemucs_6s (6 스템), htdemucs_ft (파인튜닝) — 모두를 수개월 동안 프로덕션에서 운영해 왔습니다. Replicate의 A40 GPU 인스턴스에서 실제 청구 내역상 세 변형 모두 호출당 비용이 거의 같습니다. 대략 $1당 22회 호출, 즉 곡당 약 $0.045입니다.

발표된 추론 시간만 보면 예상하기 어려운 결과이기 때문에 잠시 멈춰 짚어볼 만합니다.

모델	단순 비용 (공개 가격 × 추론 시간)	우리가 실제로 측정한 비용
Spleeter (GPU)	<$0.002	<$0.005
htdemucs (default)	~$0.022	~$0.045
htdemucs_6s (6 스템)	~$0.029	~$0.045
htdemucs_ft (파인튜닝)	~$0.11	~$0.045
BS-RoFormer	~$0.065	~$0.06–0.10 (편차 있음)

세 가지 Demucs 변형이 같은 비용으로 수렴하는 이유

단순 가격 모델은 순수 GPU 추론 시간에만 비용을 낸다고 가정합니다. 실제로는 모든 Replicate 호출에 다음이 포함됩니다.

컨테이너 콜드 스타트 시간 (0에서 스케일업할 때 5–30초)
GPU 메모리로의 모델 가중치 로딩
오디오 파일 다운로드와 ffmpeg 전처리
결과 인코딩과 스토리지로의 업로드
호출당 최소 과금 시간

이 오버헤드들은 호출당 대체로 고정 비용입니다. 모델이 얼마나 복잡한지에 비례해 늘어나지 않습니다. GPU forward pass가 30초(htdemucs default)에서 90초(htdemucs_ft)로 늘어나도, 호출당 오버헤드가 이미 예산의 대부분을 잡아먹기 때문에 추가 컴퓨팅이 청구액에 미치는 영향은 예상보다 작습니다.

실무적 함의는 이렇습니다. 이미 htdemucs 플랫폼 위에 있다면, 지연 시간 예산이 허용하는 한 가장 높은 품질의 변형을 쓰지 않을 경제적 이유가 거의 없습니다. 사용자가 60초를 기다려 줄 수 있다면 htdemucs_6s (6 스템, 기본 속도)를 쓰십시오. 2분을 기다려 줄 수 있다면 htdemucs_ft (파인튜닝, 대부분의 스템에서 BS-RoFormer에 근접한 품질)를 쓰십시오. 청구액은 같습니다.

이는 학술 논문과 Replicate가 게시한 GPU 가격만 보고 도달하게 되는 결론과 정반대입니다. 월말에 실제 청구서를 들여다봐야만 드러나는 사실입니다.

단위 경제학에 대한 함의

음원 분리 제품의 단위 경제학을 모델링한다면, 어느 Demucs 변형을 고르든 곡당 $0.04–$0.05를 하한선으로 잡으십시오. 이로부터 다음이 정해집니다.

무료 티어 상한 — 사용자당 무료 10분(≈무료 3곡)이라면 어떤 전환도 일어나기 전에 가입당 약 $0.13를 흡수하게 됩니다
최소 실효 크레딧 팩 가격 — 곡당 소매가 ~$0.10 미만이면 Stripe 수수료, 지원, 인프라 오버헤드를 감당할 마진이 남지 않습니다
벌크 처리 비용 — 월 10,000곡 처리라면 스토리지, 대역폭, 그 외 인프라를 빼고 순수 추론 비용만 ~$450 정도입니다

중요한 단서가 두 가지 있습니다.

트래픽이 적을 때는 콜드 스타트가 지배적입니다. 하루 수백 곡 미만을 처리하는 서비스라면 콜드 스타트 오버헤드의 비중이 비례적으로 더 커집니다. 매우 낮은 트래픽에서는 실제 비용이 곡당 $0.06–$0.07까지 올라갈 수 있습니다.
셀프 호스팅이 이기는 지점은 월 ~$2k 추론 지출 이상부터입니다. 전용 GPU를 40% 이상 가동률로 유지할 만큼 지속적인 트래픽이 나오기 전까지는 서버리스 GPU가 RunPod, Vast.ai 또는 자체 코로보다 저렴합니다. 우리도 직접 측정해 봤습니다. 출시 기간 내내 Replicate가 전용 인프라보다 더 저렴했습니다.

4. 출력 유연성 (스템 수와 형식)

모델	사용 가능한 스템 구성	비고
Spleeter	2, 4, 또는 5 스템	5 스템에서 피아노 추가 (별도 모델)
htdemucs	4 또는 6 스템	`htdemucs_6s`는 기타 + 피아노 추가
BS-RoFormer	4 스템 (대부분); 일부 커뮤니티 6 스템 빌드	드문 기타/피아노 스템에서 품질 저하

htdemucs_6s가 진짜로 독보적인 영역이 바로 여기입니다. 분리된 기타나 피아노 스템이 필요한 사용 사례(음악 교육, 멀티 트랙 리믹싱, 채보)라면, 프로덕션 품질로 이를 제공하는 폭넓게 배포된 모델은 htdemucs_6s가 유일합니다. BS-RoFormer 6 스템 변형도 커뮤니티에 존재하지만 성숙도가 떨어지며, 정식 BS-RoFormer는 4 스템 시스템입니다.

"보컬만" 또는 "반주만" 사용 사례(노래방 사용자층)라면 세 모델 모두 잘 작동하므로 품질이 아니라 속도를 기준으로 골라야 합니다. 90배 실시간으로 도는 Spleeter는 밀리초 단위로 쓸 만한 반주 트랙을 뽑아 줍니다.

5. 어떤 모델을 언제 고를 것인가

이 모델들을 수개월 동안 프로덕션에서 돌려본 끝에, 백지에서 시작하는 사람에게 우리가 건넬 단순한 의사결정 트리는 이렇습니다.

Spleeter를 고를 때:

실시간 또는 준실시간으로 오디오를 처리해야 할 때
CPU 또는 제한된 하드웨어에서 돌려야 할 때
배치 처리량이 필요할 때 (예: 음악 카탈로그에 대한 특징 추출)
품질 기준이 "괜찮음"이지 "좋음"이 아닐 때

htdemucs를 고를 때:

사용자가 60초 미만을 기다리는 소비자용 제품을 만들 때
6 스템이 필요할 때 (htdemucs_6s 사용)
프로덕션에서 달러당 최고의 품질 비율을 원할 때
커스텀 추론 코드를 유지하고 싶지 않을 때 (모든 주요 모델 서빙 플랫폼에서 잘 지원됩니다)

BS-RoFormer를 고를 때:

곡당 1–2분이 괜찮은 오프라인 또는 배치 작업을 돌릴 때
베이스 품질이 특히 중요할 때 (DJ 도구, 채보, 오디오 분석)
릴리스 품질의 결과물을 만들고 한계 SDR이 중요할 때
커뮤니티 모델 릴리스를 따라가는 데 엔지니어링 시간을 투자할 의향이 있을 때

어느 것도 고르지 말아야 할 때:

노래방용 보컬 제거만 필요하다면. Spleeter 2 스템을 쓰십시오. 마이크로 재생되는 따라부르기용 오디오에서는 품질 차이가 의미 없습니다.
DJ 애플리케이션에서 실시간 스템 분리가 필요하다면. 이 중 어느 것도 소비자 하드웨어에서 실시간이 아닙니다. 내장 실시간 분리 기능이 있는 DAW(Ableton 12 등)를 쓰거나 트랙을 미리 오프라인에서 처리해 두십시오.

실무에서는 이렇게 됩니다

우리는 aistemsplitter.org에서 htdemucs_6s를 프로덕션으로 운영합니다. 로컬 툴체인을 직접 세팅하고 싶지 않은 사람들을 겨냥한 6 스템 분리의 호스팅 버전입니다. (PyTorch 버전, CUDA 버전, 오디오 의존성 지옥 사이를 헤매다 보면 대부분 사람에게는 오후 한나절이 통째로 사라집니다.)

논문에 없지만 우리가 배운 것 몇 가지를 공유합니다.

실제 프로덕션 비용은 단순 계산값의 약 2배이며, Demucs 변형 사이에서는 거의 평평합니다. 공개 GPU 가격 × 추론 시간으로 나오는 숫자는 플랫폼 오버헤드를 무시한 값입니다. 우리의 실제 Replicate 청구액은 곡당 약 $0.045로 떨어지며, htdemucs, htdemucs_6s, htdemucs_ft 어느 쪽을 돌리든 같은 숫자입니다. 호출당 고정 오버헤드가 모델 간 한계 컴퓨팅 차이를 압도해 버립니다. 이 사실 하나가 우리가 모델 선택을 보는 시각을 바꿔 놓았습니다. 이론상의 컴퓨팅 비용이 아니라 품질 기준으로 고르십시오. 비용 차이는 청구서에 실제로 드러나지 않으니까요.
포맷 변환이 모델보다 더 큰 문제입니다. htdemucs는 WAV 입력만 받습니다. 사용자는 MP3, FLAC, M4A, OGG, 그리고 점점 이상해지는 WebM 컨테이너를 올립니다. 전처리 ffmpeg 레이어를 대규모에서 제대로 돌아가게 만드는 일이 만만치 않습니다.
YouTube/SoundCloud URL 입력은 UX 승부의 절반입니다. 사용자에게 파일을 다운로드해서 올리라고 요구하면 ~40%가 이탈합니다. yt-dlp를 통한 직접 URL 입력은 유지보수가 까다롭지만(연령 제한 영상, 지역 차단, 라이브 스트림) 그만한 가치가 있습니다.
사용자가 마법을 느끼는 지점은 6 스템입니다. 자기가 좋아하는 곡에서 기타와 피아노가 분리된 소리를 처음 들을 때, 사람들은 친구들에게 그 이야기를 합니다. 4 스템은 "신기하다" 수준이고, 6 스템은 "잠깐, 이게 어떻게 가능한 거지?"입니다.

툴체인을 세팅하지 않고도 6 스템 htdemucs가 실제 오디오에서 어떻게 들리는지 듣고 싶다면, 저희 사이트에 몇 곡을 무료로 시도해 볼 수 있는 크레딧이 있습니다.

이 분야에서 다음에 올 것들

2026년에 지켜볼 만한 열린 질문 몇 가지입니다.

8 스템(보컬/백킹 보컬/드럼/베이스/기타/피아노/신스/기타)이 표준이 될까요? 커뮤니티 파인튜닝은 이 방향으로 움직이고 있지만, 개별 신스와 백킹 보컬 스템에 대한 학습 데이터가 병목입니다.
소비자 하드웨어에서의 실시간? 현재 어떤 공개 모델도 허용 가능한 품질로 CPU에서 실시간으로 돌지 않습니다. 모델 디스틸레이션과 함께 이 상황은 바뀌겠지만 2026년 안에는 아닐 가능성이 큽니다.
다국어 / 비서구권 보컬 분리. 발표된 벤치마크 대부분은 영어 팝과 록이 지배합니다. 다른 보컬 기법을 가진 언어들 — 만다린, 강한 오토튠을 쓰는 캔토팝, 보컬을 겹겹이 쌓는 볼리우드 — 에서는 눈에 띄게 낮은 성능을 우리는 봅니다. 모델 배포의 문제가 아니라 분야 전체의 진짜 공백입니다.

이 분야에서 일하고 있고 우리가 흥미로워할 만한 데이터를 가지고 있거나, 이 모델들에서 우리가 아직 마주치지 못한 무언가에 부딪히셨다면 — 연락 주십시오.

참고문헌

htdemucs — Rouard, S., Massa, F., Défossez, A. Hybrid Transformers for Music Source Separation. arXiv:2211.08553
Demucs v4 (hybrid) — Défossez, A. Hybrid Spectrogram and Waveform Source Separation. arXiv:2111.03600
BS-RoFormer — Lu, W.-T., Wang, J.-C., et al. Music Source Separation with Band-Split RoPE Transformer. SDX23 Challenge results
Spleeter — Hennequin, R., Khlif, A., Voituret, F., Moussallam, M. Spleeter: a fast and efficient music source separation tool with pre-trained models. JOSS 2020
MUSDB18 dataset — Rafii, Z., Liutkus, A., Stöter, F.-R., Mimilakis, S. I., Bittner, R. The MUSDB18 corpus for music separation. Zenodo
Sound Demixing Challenge 2023 — Mitsufuji et al., SDX23 results
MVSep 모델 리더보드 — mvsep.com/en/algorithms

최종 업데이트: 2026년 4월. 데이터, SDR 수치, 또는 어떤 실무적 주장에서든 오류를 발견하셨다면 수정 사항을 보내 주십시오. 출처를 표기해 글을 갱신하겠습니다.