51분짜리 오디오로 평가하는 AI: BLAB 벤치마크 등장과 그 의미


51분 이상의 긴 오디오를 활용한 새로운 벤치마크 BLAB을 통해 최첨단 오디오 LLM의 한계가 드러났습니다. 이는 장시간 오디오 이해라는 과제의 난이도를 보여주는 동시에, 오디오 LLM의 개선 방향을 제시합니다.

related iamge

51분짜리 오디오로 평가하는 AI: BLAB 벤치마크 등장과 그 의미

인간의 다양한 음성 상호작용을 이해할 수 있는 거대한 오디오 언어 모델(LLM) 개발은, 인간 커뮤니케이션의 다면적인 특성을 수용하고 다양한 사용자 계층에 걸쳐 언어 기술의 접근성을 높이는 데 필수적입니다. 하지만 최근 오디오 LLM 연구는 주로 30초 미만의 짧은 오디오 세그먼트에 초점을 맞춰왔으며, 실제 사용자 상호작용과 더 유사한 장시간 대화 음성 세그먼트에 대한 연구는 제한적이었습니다.

이러한 한계를 극복하기 위해 등장한 것이 바로 BLAB (Brutally Long Audio Bench) 입니다. BLAB은 평균 51분에 달하는 긴 오디오를 사용하여 오디오 LLM의 위치 파악, 지속 시간 추정, 감정 인식, 개수 세기 등 다양한 작업에 대한 성능을 평가하는 벤치마크입니다. 833시간이 넘는 방대한 양의 다양한 오디오 클립과, 이에 대한 사람이 직접 작성한 자연어 질문과 답변이 포함되어 있습니다. 데이터는 허가된 출처에서 수집되었고, 작업 준수를 보장하기 위해 사람이 개입하는 필터링 과정을 거쳤습니다.

연구진은 BLAB을 사용하여 6개의 오픈소스 및 독점 오디오 LLM을 평가했는데, 놀랍게도 Gemini 2.0 Pro 및 GPT-4o와 같은 최첨단 모델조차도 BLAB의 과제에서 어려움을 겪었습니다. 분석 결과, 오디오 LLM은 장시간 음성에 어려움을 겪으며, 지속 시간이 길어질수록 성능이 저하되는 것으로 나타났습니다. 특히 위치 파악, 시간적 추론, 개수 세기 작업에서 성능이 저조했으며, 오디오 콘텐츠보다는 프롬프트에 더 의존하는 경향을 보였습니다. 또한 비음성 정보 이해에도 어려움을 겪는 것으로 확인되었습니다.

BLAB은 단순한 평가 도구를 넘어, 장시간 오디오 이해 능력을 갖춘 강력한 오디오 LLM 개발을 위한 중요한 이정표입니다. 최첨단 모델의 한계를 명확히 제시함으로써, 향후 오디오 LLM 연구 개발에 필요한 구체적인 방향을 제시하는 것은 물론, 더욱 현실적이고 실용적인 AI 개발을 위한 중요한 자극제가 될 것으로 기대됩니다. BLAB의 등장은, 단순히 기술의 발전만을 의미하는 것이 아니라, 더욱 정교하고 인간 친화적인 AI 시스템 개발을 위한 새로운 도약을 알리는 신호탄입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] BLAB: Brutally Long Audio Bench

Published:  (Updated: )

Author: Orevaoghene Ahia, Martijn Bartelds, Kabir Ahuja, Hila Gonen, Valentin Hofmann, Siddhant Arora, Shuyue Stella Li, Vishal Puttagunta, Mofetoluwa Adeyemi, Charishma Buchireddy, Ben Walls, Noah Bennett, Shinji Watanabe, Noah A. Smith, Yulia Tsvetkov, Sachin Kumar

http://arxiv.org/abs/2505.03054v1