텍스트 질의 기반 계층적 모델링을 통한 음원 분리: 새로운 가능성
Yin Xinlei 등 연구진은 텍스트 질의를 이용한 음원 분리 기술에 계층적 모델링 기반의 새로운 접근 방식을 제시하여, 기존 방법의 한계를 극복하고 데이터 효율성과 정확도를 동시에 향상시켰습니다. 이 연구는 자연어 처리와 음향 신호 처리 기술의 융합을 통해 인공지능 기반 오디오 기술 발전에 크게 기여할 것으로 기대됩니다.

Yin Xinlei 등 연구진이 발표한 논문 "Text-Queried Audio Source Separation via Hierarchical Modeling"은 자연어 질의를 이용한 음원 분리 기술에 혁신적인 접근 방식을 제시합니다. 기존 방법들이 단일 단계 아키텍처 내에서 음향-텍스트 정렬 및 의미 기반 분리를 동시에 모델링하는 어려움과, 비효율적인 크로스 모달 학습 및 분리 보상을 위한 대규모 정확하게 라벨링된 훈련 데이터에 대한 의존성에 직면했던 것과는 달리, 이 연구는 계층적 분해 프레임워크(HSM-TSS) 를 제안합니다.
HSM-TSS는 과제를 전역-지역 의미 기반 특징 분리 및 구조 보존 음향 재구성으로 분리합니다. 듀얼 스테이지 메커니즘을 통해, 먼저 텍스트 질의와 정렬된 전역 의미 특징 공간을 통해 전역 의미 분리를 수행합니다. 여기서 Q-Audio 아키텍처는 사전 훈련된 전역 의미 인코더 역할을 하며 오디오 및 텍스트 모달리티를 정렬합니다. 예측된 전역 특징을 조건으로 하여, 시간-주파수 구조를 보존하는 AudioMAE 특징에 대한 두 번째 단계인 지역 의미 분리를 수행하고, 이후 음향 재구성을 진행합니다.
또한, 임의의 텍스트 질의를 구조화된 작업(추출 또는 제거)과 오디오 설명을 결합한 것으로 파싱하는 지침 처리 파이프라인을 제안하여 유연한 사운드 조작을 가능하게 합니다. 이 방법은 복잡한 청각 환경에서 질의와의 우수한 의미 일관성을 유지하면서 데이터 효율적인 훈련으로 최첨단 분리 성능을 달성합니다.
이는 단순히 음원 분리 기술의 향상을 넘어, 인공지능이 자연어 이해를 바탕으로 복잡한 음향 신호를 보다 정교하게 분석하고 조작할 수 있는 가능성을 보여주는 중요한 연구입니다. 특히, 대규모 데이터에 대한 의존성을 줄임으로써, 다양한 음향 환경에서의 적용 가능성을 크게 높였습니다. 앞으로 이 연구는 인공지능 기반 오디오 기술의 발전에 큰 영향을 미칠 것으로 예상됩니다.
Reference
[arxiv] Text-Queried Audio Source Separation via Hierarchical Modeling
Published: (Updated: )
Author: Xinlei Yin, Xiulian Peng, Xue Jiang, Zhiwei Xiong, Yan Lu
http://arxiv.org/abs/2505.21025v1