Step-Audio: 지능형 음성 상호작용의 새로운 지평을 열다

38명의 연구진이 개발한 Step-Audio는 130B 파라미터의 통합 음성-텍스트 다중 모달 모델과 저렴한 음성 복제 프레임워크, 지시어 기반의 동적 제어 시스템 등을 통해 실시간 음성 상호작용의 새로운 기준을 제시합니다. StepEval-Audio-360 평가 벤치마크에서 최첨단 성능을 달성하며 오픈소스 음성 기술의 발전에 크게 기여할 것으로 기대됩니다.

인간과 기계의 협업을 위한 기본 인터페이스인 실시간 음성 상호작용은 그 잠재력이 무궁무진합니다. 하지만 현재의 오픈소스 모델들은 음성 데이터 수집의 높은 비용, 동적 제어의 약점, 제한적인 지능 등의 한계를 가지고 있습니다.

이러한 문제점을 해결하기 위해, Step-Audio가 등장했습니다. Step-Audio는 최초의 프로덕션 레디 오픈소스 솔루션으로, 음성 기술의 혁신을 이끌 핵심 기능들을 제공합니다. 무려 38명의 연구진이 참여한 이 프로젝트는 단순한 기술적 진보를 넘어, 오픈소스 생태계에 새로운 활력을 불어넣을 것으로 기대됩니다.

Step-Audio의 핵심 기여는 다음과 같습니다.

130B 파라미터의 통합 음성-텍스트 다중 모달 모델: 통합된 이해 및 생성 기능을 제공하며, Step-Audio-Chat 버전이 오픈소스로 공개되었습니다. 이는 기존 모델들의 한계를 극복하고, 더욱 자연스럽고 정확한 음성 상호작용을 가능하게 합니다.
생성형 음성 데이터 엔진: 저렴한 비용으로 음성 복제 프레임워크를 구축하고, 경량화된 Step-Audio-TTS-3B 모델을 증류(distillation)를 통해 생성하여 오픈소스로 제공합니다. 이는 음성 데이터 확보의 어려움을 해소하고, 더 많은 개발자들이 음성 기술에 접근할 수 있도록 지원합니다.
지시어 기반의 미세 제어 시스템: 방언, 감정, 노래, 랩 등 다양한 요소를 동적으로 조절할 수 있습니다. 사용자의 요구에 맞춰 더욱 유연하고 다채로운 음성 상호작용이 가능해집니다.
도구 호출 및 역할극 기능이 강화된 인지 아키텍처: 복잡한 작업을 효과적으로 관리할 수 있도록 설계되었습니다. 단순한 명령어 처리를 넘어, 더욱 복잡하고 다양한 작업을 수행할 수 있는 능력을 제공합니다.

새롭게 개발된 StepEval-Audio-360 평가 벤치마크를 통해 Step-Audio는 특히 지시어 준수 측면에서 최첨단 성능을 달성했습니다. LLaMA Question과 같은 오픈소스 벤치마크에서도 평균 9.3%의 성능 향상을 보이며, 오픈소스 다중 모달 언어 기술 발전에 대한 연구진의 노력을 증명했습니다.

Step-Audio의 코드와 모델은 https://github.com/stepfun-ai/Step-Audio 에서 확인할 수 있습니다. Step-Audio는 단순한 기술적 진보를 넘어, 더욱 풍부하고 지능적인 음성 상호작용의 시대를 열어갈 혁신적인 플랫폼으로 자리매김할 것입니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

Published: (Updated: )

Author: Ailin Huang, Boyong Wu, Bruce Wang, Chao Yan, Chen Hu, Chengli Feng, Fei Tian, Feiyu Shen, Jingbei Li, Mingrui Chen, Peng Liu, Ruihang Miao, Wang You, Xi Chen, Xuerui Yang, Yechang Huang, Yuxiang Zhang, Zheng Gong, Zixin Zhang, Hongyu Zhou, Jianjian Sun, Brian Li, Chengting Feng, Changyi Wan, Hanpeng Hu, Jianchang Wu, Jiangjie Zhen, Ranchen Ming, Song Yuan, Xuelin Zhang, Yu Zhou, Bingxin Li, Buyun Ma, Hongyuan Wang, Kang An, Wei Ji, Wen Li, Xuan Wen, Xiangwen Kong, Yuankai Ma, Yuanwei Liang, Yun Mou, Bahtiyar Ahmidi, Bin Wang, Bo Li, Changxin Miao, Chen Xu, Chenrun Wang, Dapeng Shi, Deshan Sun, Dingyuan Hu, Dula Sai, Enle Liu, Guanzhe Huang, Gulin Yan, Heng Wang, Haonan Jia, Haoyang Zhang, Jiahao Gong, Junjing Guo, Jiashuai Liu, Jiahong Liu, Jie Feng, Jie Wu, Jiaoren Wu, Jie Yang, Jinguo Wang, Jingyang Zhang, Junzhe Lin, Kaixiang Li, Lei Xia, Li Zhou, Liang Zhao, Longlong Gu, Mei Chen, Menglin Wu, Ming Li, Mingxiao Li, Mingliang Li, Mingyao Liang, Na Wang, Nie Hao, Qiling Wu, Qinyuan Tan, Ran Sun, Shuai Shuai, Shaoliang Pang, Shiliang Yang, Shuli Gao, Shanshan Yuan, Siqi Liu, Shihong Deng, Shilei Jiang, Sitong Liu, Tiancheng Cao, Tianyu Wang, Wenjin Deng, Wuxun Xie, Weipeng Ming, Wenqing He, Wen Sun, Xin Han, Xin Huang, Xiaomin Deng, Xiaojia Liu, Xin Wu, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Cao, Yangguang Li, Yangzhen Ma, Yanming Xu, Yaoyu Wang, Yaqiang Shi, Yilei Wang, Yizhuang Zhou, Yinmin Zhong, Yang Zhang, Yaoben Wei, Yu Luo, Yuanwei Lu, Yuhe Yin, Yuchu Luo, Yuanhao Ding, Yuting Yan, Yaqi Dai, Yuxiang Yang, Zhe Xie, Zheng Ge, Zheng Sun, Zhewei Huang, Zhichao Chang, Zhisheng Guan, Zidong Yang, Zili Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu

http://arxiv.org/abs/2502.11946v2