75ms 만에 12초 음성 생성? AI 음성 합성의 혁신적인 속도 향상!
Zachary Novack 등 11명의 연구진이 개발한 새로운 텍스트 음성 변환 모델은 적대적 사후 학습(ARC) 기법을 통해 기존 모델 대비 획기적인 속도 향상을 달성했습니다. H100 GPU에서 12초 분량의 오디오를 75ms 만에 생성하며, 모바일 기기에서도 실시간 음성 생성이 가능해짐에 따라 다양한 응용 분야에서 혁신을 가져올 것으로 기대됩니다.

75ms 만에 12초 음성 생성? AI 음성 합성의 혁신적인 속도 향상!
최근, Zachary Novack을 비롯한 11명의 연구진이 발표한 논문 "Fast Text-to-Audio Generation with Adversarial Post-Training" 이 AI 업계에 큰 파장을 일으키고 있습니다. 이 논문에서 제시된 새로운 모델은 기존의 텍스트 음성 변환 시스템의 속도 한계를 극복하고, 놀라운 속도로 음성을 생성하는 능력을 선보였습니다.
기존의 한계를 뛰어넘다: 적대적 사후 학습(ARC)의 등장
기존의 텍스트 음성 변환 시스템들은 추론 시간이 매우 길어 실시간 응용에는 적합하지 않았습니다. 연구진은 이 문제를 해결하기 위해 적대적 상대적 대조(ARC) 사후 학습이라는 새로운 기법을 도입했습니다. ARC 사후 학습은 증류 기반 방식과는 달리, (1) 상대적 적대적 공식을 확장하여 확산/흐름 모델 사후 학습에 적용하고, (2) 새로운 대조적 판별자 목적 함수를 결합하여 프롬프트 준수성을 향상시키는 방식으로 작동합니다. 이를 통해 기존의 비효율적인 방식에서 벗어나 훨씬 빠른 속도를 구현할 수 있었습니다.
놀라운 속도: H100에서 75ms 만에 12초 음성 생성!
연구진은 ARC 사후 학습과 다양한 최적화 기법을 Stable Audio Open에 적용하여 놀라운 결과를 달성했습니다. H100 GPU를 사용하여 약 12초 분량의 44.1kHz 스테레오 오디오를 단 75ms 만에 생성할 수 있게 된 것입니다. 뿐만 아니라, 모바일 에지 기기에서도 약 7초 분량의 오디오를 생성할 수 있어, 모바일 환경에서의 실시간 음성 합성을 가능하게 했습니다. 이는 현재까지 알려진 텍스트 음성 변환 모델 중 가장 빠른 속도입니다.
미래를 위한 전망: 무한한 가능성
이 연구는 단순히 속도 향상을 넘어, 다양한 분야에 혁신을 가져올 가능성을 제시합니다. 실시간 통역, AI 기반 음성 어시스턴트, 게임 및 영화 제작 등 다양한 분야에서 이 기술을 활용하여 더욱 풍부하고 효율적인 서비스를 제공할 수 있게 되었습니다. 연구진의 혁신적인 성과는 AI 음성 합성 분야의 새로운 지평을 열었으며, 앞으로 더욱 발전된 기술이 등장할 것으로 기대됩니다.
Reference
[arxiv] Fast Text-to-Audio Generation with Adversarial Post-Training
Published: (Updated: )
Author: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
http://arxiv.org/abs/2505.08175v3