๐Ÿ”ฅ FireRedTTS-1S: ์‹ค์‹œ๊ฐ„ ๊ณ ํ’ˆ์งˆ ์Œ์„ฑํ•ฉ์„ฑ์˜ ํ˜์‹ 


FireRedTTS-1S๋Š” 150ms ์ดํ•˜์˜ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ์‹ค์‹œ๊ฐ„ ์ŠคํŠธ๋ฆฌ๋ฐ ์Œ์„ฑ ํ•ฉ์„ฑ์„ ๊ตฌํ˜„ํ•˜๋Š” ํ˜์‹ ์ ์ธ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ œ๋กœ์ƒท ์Œ์„ฑ ๋ณต์ œ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์‚ฐ์—…๊ณ„ ํ‘œ์ค€ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์˜ ๋ช…๋ฃŒ๋„์™€ ํ™”์ž ์œ ์‚ฌ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ฃผ๊ด€์  ํ‰๊ฐ€์—์„œ๋„ ์‹ค์ œ ๋…น์Œ๊ณผ ์œ ์‚ฌํ•œ ๋†’์€ ํ’ˆ์งˆ์„ ์ธ์ •๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.

related iamge

๐Ÿ”ฅ FireRedTTS-1S: ์‹ค์‹œ๊ฐ„ ๊ณ ํ’ˆ์งˆ ์Œ์„ฑํ•ฉ์„ฑ์˜ ํ˜์‹ 

Guo Hao-Han, Xie Kun, Wu Yi-Chen, Xie Feng-Long ์—ฐ๊ตฌํŒ€์ด ๊ฐœ๋ฐœํ•œ FireRedTTS-1S๋Š” ํ…์ŠคํŠธ ์Œ์„ฑ ๋ณ€ํ™˜(TTS) ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ์ด์ •ํ‘œ๋ฅผ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด FireRedTTS์˜ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฒ„์ „์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•œ ์ด ์‹œ์Šคํ…œ์€ ํ…์ŠคํŠธ-์˜๋ฏธ ๋””์ฝ”๋”ฉ๊ณผ ์˜๋ฏธ-์Œํ–ฅ ๋””์ฝ”๋”ฉ์˜ ๋‘ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์ŠคํŠธ๋ฆฌ๋ฐ ์Œ์„ฑ ์ƒ์„ฑ์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ €, ์˜๋ฏธ ์ธ์‹ ์Œ์„ฑ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์Œ์„ฑ ์‹ ํ˜ธ๋ฅผ ์˜๋ฏธ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ† ํฐ๋“ค์€ ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์˜ ์˜๋ฏธ ์–ธ์–ด ๋ชจ๋ธ์„ ํ†ตํ•ด ํ…์ŠคํŠธ์—์„œ ํ•ฉ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋™์‹œ์—, ์ดˆ๊ณ ํ•ด์ƒ๋„ ์ธ๊ณผ์  ์˜ค๋””์˜ค ์ฝ”๋ฑ๊ณผ ๋‹ค์ค‘ ์ŠคํŠธ๋ฆผ ์Œํ–ฅ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ์˜๋ฏธ-์Œํ–ฅ ๋””์ฝ”๋”ฉ ๋ชจ๋“ˆ์ด ์ƒ์„ฑ๋œ ์˜๋ฏธ ํ† ํฐ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์Œ์„ฑ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š” 150ms ์ดํ•˜์˜ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์œผ๋กœ ์‹ค์‹œ๊ฐ„ ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ ์Œ์„ฑ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ, ์ œ๋กœ์ƒท ์Œ์„ฑ ๋ณต์ œ ์‹คํ—˜์—์„œ FireRedTTS-1S๋Š” ์‚ฐ์—…๊ณ„ ๊ธฐ์ค€ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•ด ๋›ฐ์–ด๋‚œ ๋ช…๋ฃŒ๋„์™€ ํ™”์ž ์œ ์‚ฌ์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, ์ฃผ๊ด€์  ํ‰๊ฐ€์—์„œ๋„ ์‹ค์ œ ๋…น์Œ๊ณผ ์œ ์‚ฌํ•œ ํ’ˆ์งˆ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ทธ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ์‹ค์‹œ๊ฐ„ ๊ณ ํ’ˆ์งˆ ์Œ์„ฑ ํ•ฉ์„ฑ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋”์šฑ ๋†’์ผ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. FireRedTTS-1S๋Š” ๋‹จ์ˆœํ•œ ๊ธฐ์ˆ ์  ์ง„๋ณด๋ฅผ ๋„˜์–ด, ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์‹ค๊ฐ๋‚˜๋Š” ์Œ์„ฑ ์ƒ์„ฑ์„ ํ†ตํ•ด ์ธ๊ฐ„๊ณผ ๊ธฐ๊ณ„์˜ ์†Œํ†ต์„ ํ•œ์ธต ๋” ํ’๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ค„ ํ˜์‹ ์ ์ธ ์‹œ์Šคํ…œ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ: ๊ณ ํ’ˆ์งˆ, ์‹ค์‹œ๊ฐ„ ์ŠคํŠธ๋ฆฌ๋ฐ, ๋‚ฎ์€ ์ง€์—ฐ์‹œ๊ฐ„(150ms ์ดํ•˜), ์ œ๋กœ์ƒท ์Œ์„ฑ ๋ณต์ œ, ์‚ฐ์—…๊ณ„ ํ‘œ์ค€ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] FireRedTTS-1S: An Upgraded Streamable Foundation Text-to-Speech System

Published: ย (Updated: )

Author: Hao-Han Guo, Kun Xie, Yi-Chen Wu, Feng-Long Xie

http://arxiv.org/abs/2503.20499v1