획기적인 음성 기반 모델 압축 기술 등장: 단일 단계 통합 접근 방식


Xu Haoning 등 연구진의 논문은 음성 기반 모델 압축에 단일 단계 통합 접근 방식을 제시, wav2vec2.0-base와 HuBERT-large 모델의 매개변수를 60~65% 감소시키면서 WER 증가 없이 성능을 유지하고, 기존 방법 대비 WER과 압축 시간을 크게 단축하는 성과를 거두었습니다.

related iamge

Xu Haoning 등 8명의 연구원(Xu Haoning, Zhaoqing Li, Youjun Chen, Huimeng Wang, Guinan Li, Mengzhe Geng, Chengxi Deng, Xunying Liu)이 발표한 최근 논문은 음성 기반 모델 압축 분야에 혁신적인 돌파구를 제시합니다. 기존의 복잡한 다단계 방식을 벗어나, 모델 가지치기(pruning)와 매개변수 업데이트를 단일 단계로 통합하는 새로운 접근법을 제시한 것입니다.

핵심은 '희소성 인식 자체 압축 게이트(sparsity-aware self-pinching gates)' 입니다. 이 게이트는 단 하나의 학습 가능한 임계값만을 포함하는 초경량 구조로, 비압축 모델과 함께 학습됩니다. 미세한 뉴런 수준의 가지치기를 가능하게 하여, 모델 크기를 효율적으로 줄이면서 성능 저하를 최소화하는 것이 특징입니다.

LibriSpeech-100hr 데이터셋을 사용한 실험 결과는 놀랍습니다. wav2vec2.0-base 모델의 매개변수는 65%, HuBERT-large 모델은 60%나 감소했지만, test-clean 데이터셋에서 단어 오류율(WER)은 통계적으로 유의미한 증가가 없었습니다. 이는 모델 크기의 극적인 감소에도 불구하고, 모델의 성능을 성공적으로 유지했음을 의미합니다.

더욱 주목할 만한 점은, 동일한 작업에 대한 기존 연구와 비교했을 때, 본 연구의 방법이 최저 WER(7.05%) 을 달성했을 뿐만 아니라, 모델 압축 시간을 최소 25% 단축했다는 점입니다. 압축 비율 또한 4.26배로 경쟁력 있는 수준을 보여줍니다.

이 연구는 단순한 모델 압축 기술을 넘어, 효율성과 효과성을 동시에 달성하는 새로운 패러다임을 제시합니다. 음성 인식 분야뿐 아니라, 다른 AI 모델의 압축 및 경량화에도 폭넓은 응용이 기대됩니다. 향후 연구에서는 다양한 음성 데이터셋 및 모델에 대한 적용성 검증과 더욱 고도화된 기술 개발이 중요할 것으로 예상됩니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates

Published:  (Updated: )

Author: Haoning Xu, Zhaoqing Li, Youjun Chen, Huimeng Wang, Guinan Li, Mengzhe Geng, Chengxi Deng, Xunying Liu

http://arxiv.org/abs/2505.22608v1