VITA-Audio: 실시간 대화형 AI의 혁신을 이끌다!
VITA-Audio는 빠른 음성-텍스트 토큰 생성을 위한 혁신적인 대규모 음성 모델로, 실시간 대화형 AI 시스템 구현의 가능성을 열었습니다. 다양한 음성 관련 작업에서 뛰어난 성능을 보이며 기존 모델의 한계를 극복했습니다.

꿈꿔왔던 실시간 AI 대화, 이제 현실이 된다!
인간과 컴퓨터의 자연스러운 상호작용에 대한 요구가 증가함에 따라, 음성 기반 시스템이 주목받고 있습니다. 하지만 기존 음성 모델들은 스트리밍 중 첫 번째 오디오 토큰 생성에 높은 지연 시간을 겪어 실제 서비스 적용에 어려움이 있었습니다.
하지만 이제 희망이 있습니다! 중국과학원 연구진이 개발한 VITA-Audio가 그 해답을 제시합니다. VITA-Audio는 빠른 음성-텍스트 토큰 생성을 가능하게 하는 혁신적인 종단 간 대규모 음성 모델입니다.
핵심은 경량화된 다중 교차 모달 토큰 예측(MCTP) 모듈입니다. 이 모듈은 단일 모델 전달 과정에서 여러 오디오 토큰을 효율적으로 생성하여 추론 속도를 높이고 스트리밍 시 첫 번째 오디오 생성 지연 시간을 대폭 줄입니다. 더불어, 4단계의 점진적 학습 전략을 통해 모델 속도 향상과 음성 품질 저하를 최소화했습니다.
VITA-Audio의 놀라운 성능은 실험 결과로 입증됩니다. 70억 매개변수 규모에서 추론 속도가 3~5배 향상되었으며, 자동 음성 인식(ASR), 텍스트 음성 변환(TTS), 음성 질문 답변(SQA) 등 여러 벤치마크에서 유사한 크기의 오픈소스 모델들을 압도적인 성능으로 앞질렀습니다. 게다가, VITA-Audio는 오픈소스 데이터만을 사용하여 학습되었으며, 완벽한 재현성을 제공합니다.
VITA-Audio는 단순한 기술적 진보를 넘어, 실시간 대화형 AI 시스템 구현의 가능성을 열었습니다. 이제 꿈꿔왔던 자연스럽고 빠른 AI와의 소통이 현실로 다가왔습니다. VITA-Audio의 등장은 인간과 AI의 상호작용 방식에 혁신적인 변화를 가져올 것으로 예상됩니다.🎉
주요 연구진: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun
Reference
[arxiv] VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model
Published: (Updated: )
Author: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun
http://arxiv.org/abs/2505.03739v1