중국어 음성 합성의 혁명: Audio Turing Test (ATT) 등장


메이투안 연구팀이 개발한 Audio Turing Test (ATT)는 기존 MOS 방식의 한계를 극복한 혁신적인 중국어 TTS 평가 시스템입니다. 다차원 평가 설계와 자동 평가 시스템 Auto-ATT를 통해 객관적이고 효율적인 평가를 가능하게 하며, Hugging Face를 통해 공개되어 널리 활용될 것으로 기대됩니다.

related iamge

최근 대규모 언어 모델(LLM)의 발전으로 텍스트 음성 변환(TTS) 시스템이 눈부시게 발전하고 있습니다. 자연스러움과 감정 표현이 향상되어 인간 수준의 성능에 근접하고 있죠. 하지만 기존의 평가 방식인 평균 의견 점수(MOS)는 주관성, 환경적 요인, 해석의 어려움 등의 한계를 가지고 있습니다. 특히 중국어 TTS 평가에서는 스타일, 문맥, 함정 발화 등 다양한 요소를 고려하지 못하는 문제점이 있었습니다.

이러한 문제를 해결하기 위해 메이투안(美团)의 연구팀(Xihuai Wang, Ziyi Zhao 외 10명)이 Audio Turing Test (ATT) 라는 혁신적인 평가 시스템을 개발했습니다. ATT는 다차원 중국어 말뭉치 데이터셋인 ATT-Corpus와 함께, 간단한 튜링 테스트 방식의 평가 프로토콜을 제공합니다. 복잡한 MOS 척도나 직접적인 모델 비교 대신, 평가자들이 음성이 인간의 목소리인지 판단하게 함으로써 평가 편향을 줄이고 견고성을 높였습니다.

더 나아가, 연구팀은 인간의 판단 데이터를 사용하여 Auto-ATT 라는 자동 평가 시스템을 미세 조정했습니다. Auto-ATT는 인간 평가와 높은 일치율을 보이며, 빠르고 신뢰할 수 있는 평가 도구로서의 가치를 입증했습니다. 실험 결과, ATT는 다차원 설계를 통해 모델의 특정 기능 차이를 효과적으로 구분하는 것으로 나타났습니다.

ATT-Corpus와 Auto-ATT는 Hugging Face에 공개되어(https://huggingface.co/collections/meituan/audio-turing-test-682446320368164faeaf38a4), TTS 연구자들에게 귀중한 자원이 될 것으로 기대됩니다. 이는 중국어 TTS 기술 발전에 큰 기여를 할 뿐만 아니라, 다른 언어의 TTS 평가에도 시사하는 바가 큽니다. 향후 ATT가 TTS 기술 발전에 어떤 영향을 미칠지 주목할 필요가 있습니다.

요약: 메이투안 연구팀이 개발한 ATT는 중국어 TTS 시스템 평가의 새로운 기준을 제시하며, 객관성과 효율성을 높인 획기적인 시스템입니다. ATT-Corpus와 Auto-ATT의 공개는 TTS 기술의 발전을 더욱 가속화할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese

Published:  (Updated: )

Author: Xihuai Wang, Ziyi Zhao, Siyu Ren, Shao Zhang, Song Li, Xiaoyu Li, Ziwen Wang, Lin Qiu, Guanglu Wan, Xuezhi Cao, Xunliang Cai, Weinan Zhang

http://arxiv.org/abs/2505.11200v1