FusionAudio-1.2M: 다양한 모달 정보 융합으로 오디오 이해의 새로운 지평을 열다
본 기사는 다양한 모달 정보를 융합하여 세밀한 오디오 캡션을 생성하는 FusionAudio-1.2M 프로젝트에 대해 소개합니다. 인간의 청각 인지 과정을 모방한 혁신적인 두 단계 자동화 파이프라인과 120만 개의 캡션 및 600만 개의 질의응답 쌍으로 구성된 대규모 데이터셋, 그리고 개선된 오디오 모델을 통해 오디오 이해 분야의 새로운 지평을 열었습니다.

오디오 이해 분야의 핵심 과제 중 하나는 고품질의 대규모 오디오 캡션 데이터셋을 구축하는 것입니다. 기존의 자동화된 방법들은 세밀한 정보와 정확한 컨텍스트를 담은 캡션 생성에 어려움을 겪어왔습니다. 주된 원인은 제한적인 단일 모달 정보 또는 피상적인 다중 모달 정보에 의존하기 때문입니다.
하지만 중국과학원 자동화연구소를 비롯한 여러 연구진은 인간의 청각 인지 과정에서 영감을 얻어 혁신적인 해결책을 제시했습니다. FusionAudio-1.2M이라는 야심찬 프로젝트를 통해, 그들은 두 단계의 자동화 파이프라인을 개발했습니다.
첫 번째 단계는 사전 훈련된 모델들을 사용하여 음성, 음악, 일반적인 소리, 그리고 관련 영상으로부터 얻을 수 있는 시각 정보 등 다양한 컨텍스트 정보를 추출하는 것입니다. 마치 사람이 여러 감각을 동시에 활용하여 정보를 이해하는 것과 유사합니다.
두 번째 단계는 추출된 다양한 모달 정보를 대규모 언어 모델(LLM)에 입력하여 세밀하고 컨텍스트를 고려한 오디오 캡션을 생성하는 것입니다. LLM의 뛰어난 텍스트 생성 능력을 통해 풍부한 정보를 담은 캡션을 만들어낼 수 있습니다.
이 연구의 주요 기여는 다음과 같습니다.
- 세밀한 오디오 캡션 생성을 위한 확장 가능한 방법 제시: 다양한 모달 정보의 융합을 통해 기존 방법의 한계를 극복했습니다.
- FusionAudio 데이터셋 공개: 120만 개의 상세 캡션과 600만 개의 질의응답 쌍으로 구성된 대규모 데이터셋을 공개하여, 관련 연구의 발전을 가속화할 것입니다. 이는 앞으로 오디오 이해 기술의 발전에 중요한 기반이 될 것입니다.
- 향상된 오디오 모델 개발: CLAP 기반 오디오 인코더를 개선하여 오디오-텍스트 정렬 및 지시어 따르기를 향상시켰습니다. 이를 통해 오디오 이해의 정확도가 향상될 것으로 기대됩니다.
본 연구는 복잡한 오디오 환경에 대한 더욱 정교하고 정확한 자동 이해를 위한 길을 열었습니다. GitHub(https://github.com/satsuki2486441738/FusionAudio)에서 코드와 데이터를 확인할 수 있습니다. 이 연구는 단순히 기술적 진보를 넘어, 인간의 감각 인지 능력을 모방하여 더욱 풍부하고 정교한 AI 시스템을 구축하는 데 중요한 이정표를 세웠다는 점에서 큰 의의를 가집니다.
Reference
[arxiv] FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
Published: (Updated: )
Author: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
http://arxiv.org/abs/2506.01111v1