경량화의 승리! 단일 양자화기로 오디오 코덱의 혁신을 이룬 SQCodec
Linwei Zhai 등 연구팀이 개발한 SQCodec은 단일 양자화기를 사용한 경량 오디오 코덱으로, 기존 다중 양자화기 기반 모델의 한계를 극복하고 뛰어난 성능과 압도적인 경량화를 동시에 달성했습니다. TConv라는 혁신적인 메커니즘을 통해 오디오 품질 저하 없이 자원 소모량을 10배나 줄였으며, GitHub에서 소스 코드를 공개하여 더욱 활발한 연구 개발을 지원하고 있습니다.

최근 고품질 오디오 압축과 생성 모델링 작업에 활용 가능한 이산 토큰 생성에 있어 신경망 오디오 코덱이 주목받고 있습니다. 하지만 기존 최고 수준의 방법들은 자원 집약적인 모델과 다중 양자화기 구조에 의존하여 상당한 계산 오버헤드를 발생시키고 실제 적용에 제약이 있었습니다.
Linwei Zhai를 비롯한 연구팀이 개발한 SQCodec은 이러한 문제를 해결하기 위해 등장했습니다. SQCodec은 단일 양자화기를 사용하여 경량화를 실현한 혁신적인 오디오 코덱입니다. 연구팀은 효율적인 합성곱 신경망과 지역적 Transformer 모듈을 활용하고, 특히 시간에 따른 음향 변화를 다양한 척도에서 포착하는 TConv라는 새로운 메커니즘을 도입하여 모델 복잡도를 낮추면서 재구성 정확도를 높였습니다.
다양한 데이터셋을 이용한 실험 결과는 놀라웠습니다. SQCodec은 다중 양자화기 기반 모델들과 비교해도 뒤지지 않는 오디오 품질을 제공하면서, 자원 소모량은 무려 10배나 감소시켰습니다. 이는 휴대폰, 스마트 스피커 등의 제한된 자원을 가진 기기에서 고품질 오디오 코딩을 가능하게 합니다. 또한, 실시간 오디오 처리에도 적용될 가능성을 크게 높여줍니다.
SQCodec의 핵심인 TConv는 단순히 효율성만 추구한 것이 아닙니다. 다양한 시간 척도의 음향 변화를 정확하게 포착함으로써, 오디오의 미묘한 뉘앙스까지도 정확하게 재현하는 뛰어난 성능을 보여주었습니다. 이는 기존의 코덱들이 놓치기 쉬운 부분을 포착하여 더욱 자연스럽고 정확한 오디오 재생을 가능하게 합니다.
더욱 고무적인 것은 SQCodec의 소스 코드가 GitHub에서 공개적으로 제공된다는 점입니다. 이는 다른 연구자들이 SQCodec을 기반으로 더욱 발전된 기술을 개발하는 데 큰 도움을 줄 것입니다.
SQCodec은 단순한 기술적 진보를 넘어, 오디오 코딩 기술의 패러다임을 바꿀 잠재력을 가지고 있습니다. 경량화와 고품질이라는 두 마리 토끼를 모두 잡은 SQCodec이 앞으로 어떤 놀라운 성과를 만들어낼지 기대됩니다. 🎉
Reference
[arxiv] One Quantizer is Enough: Toward a Lightweight Audio Codec
Published: (Updated: )
Author: Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi
http://arxiv.org/abs/2504.04949v1