75ms 만에 12초 음성 생성! 적대적 사후 학습으로 혁신을 이룬 텍스트 음성 변환 모델


본 기사는 적대적 사후 학습 기법을 활용하여 텍스트 음성 변환 속도를 획기적으로 개선한 연구에 대해 소개합니다. H100 GPU 기반으로 12초 분량의 오디오를 75ms만에 생성하는 놀라운 성능은 AI 기술의 실시간 응용 가능성을 한층 높였습니다.

related iamge

텍스트 음성 변환 기술은 놀라운 발전을 거듭하고 있지만, 여전히 처리 속도의 한계에 직면해 있습니다. 실시간 응용 프로그램에 적용하기에는 속도가 너무 느리다는 것이 문제였죠. 하지만 최근, Zachary Novack을 비롯한 11명의 연구진이 발표한 논문 "Fast Text-to-Audio Generation with Adversarial Post-Training" 은 이러한 한계를 극복하는 획기적인 성과를 보여줍니다.

이 연구팀은 기존의 지식 증류 방식 대신 적대적 사후 학습(Adversarial Post-Training) 이라는 새로운 방법을 제시했습니다. 특히, 적대적 상대적 대조(ARC) 사후 학습이라는 독창적인 알고리즘을 개발하여 Stable Audio Open 모델을 개선했습니다. ARC 사후 학습은 기존의 방식과 달리, (1) 상대적 적대적 공식을 확장하고 (2) 새로운 대조적 판별자 목표를 결합하여 프롬프트 준수도를 향상시키는 데 초점을 맞추었습니다.

그 결과는 놀랍습니다. H100 GPU를 사용하여 약 12초 분량의 44.1kHz 스테레오 오디오를 약 75ms 만에 생성하는 성능을 달성했습니다. 이는 기존 모델들에 비해 압도적으로 빠른 속도입니다. 더욱 놀라운 것은 모바일 에지 기기에서도 약 7초 분량의 오디오를 생성할 수 있다는 점입니다. 연구팀은 이것이 현재까지 가장 빠른 텍스트 음성 변환 모델이라고 주장합니다.

이 연구는 단순히 속도만 개선한 것이 아닙니다. 적대적 학습이라는 새로운 패러다임을 제시함으로써, 향후 텍스트 음성 변환 기술의 발전 방향에 중요한 이정표를 제시했습니다. 모바일 기기에서의 빠른 처리 속도는 AI 기술의 대중화를 더욱 가속화할 것으로 예상되며, 실시간 번역, 음성 생성 콘텐츠 제작 등 다양한 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다.

하지만, 이 기술이 완벽한 것은 아닙니다. 모델의 성능과 속도 사이에는 항상 trade-off가 존재하며, 추가적인 연구를 통해 더욱 개선될 여지가 있습니다. 앞으로 이 기술이 어떻게 발전하고 실제 응용 분야에 적용될지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Fast Text-to-Audio Generation with Adversarial Post-Training

Published:  (Updated: )

Author: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons

http://arxiv.org/abs/2505.08175v2