๐ฅ FireRedTTS-1S: ์ค์๊ฐ ๊ณ ํ์ง ์์ฑํฉ์ฑ์ ํ์
FireRedTTS-1S๋ 150ms ์ดํ์ ๋ฎ์ ์ง์ฐ ์๊ฐ์ผ๋ก ๊ณ ํ์ง์ ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ์์ฑ ํฉ์ฑ์ ๊ตฌํํ๋ ํ์ ์ ์ธ ์์คํ ์ ๋๋ค. ์ ๋ก์ท ์์ฑ ๋ณต์ ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ฐ์ ๊ณ ํ์ค ์์คํ ๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์์ค์ ๋ช ๋ฃ๋์ ํ์ ์ ์ฌ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ฃผ๊ด์ ํ๊ฐ์์๋ ์ค์ ๋ น์๊ณผ ์ ์ฌํ ๋์ ํ์ง์ ์ธ์ ๋ฐ์์ต๋๋ค.

๐ฅ FireRedTTS-1S: ์ค์๊ฐ ๊ณ ํ์ง ์์ฑํฉ์ฑ์ ํ์
Guo Hao-Han, Xie Kun, Wu Yi-Chen, Xie Feng-Long ์ฐ๊ตฌํ์ด ๊ฐ๋ฐํ FireRedTTS-1S๋ ํ ์คํธ ์์ฑ ๋ณํ(TTS) ๋ถ์ผ์ ์๋ก์ด ์ด์ ํ๋ฅผ ์ธ์ ์ต๋๋ค. ๊ธฐ์กด FireRedTTS์ ์คํธ๋ฆฌ๋ฐ ๋ฒ์ ์ ์ ๊ทธ๋ ์ด๋ํ ์ด ์์คํ ์ ํ ์คํธ-์๋ฏธ ๋์ฝ๋ฉ๊ณผ ์๋ฏธ-์ํฅ ๋์ฝ๋ฉ์ ๋ ๋จ๊ณ๋ฅผ ํตํด ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ์์ฑ ์์ฑ์ ๊ตฌํํฉ๋๋ค.
๋จผ์ , ์๋ฏธ ์ธ์ ์์ฑ ํ ํฌ๋์ด์ ๊ฐ ์์ฑ ์ ํธ๋ฅผ ์๋ฏธ ํ ํฐ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด ํ ํฐ๋ค์ ์๊ธฐํ๊ท ๋ฐฉ์์ ์๋ฏธ ์ธ์ด ๋ชจ๋ธ์ ํตํด ํ ์คํธ์์ ํฉ์ฑ๋ฉ๋๋ค. ๋์์, ์ด๊ณ ํด์๋ ์ธ๊ณผ์ ์ค๋์ค ์ฝ๋ฑ๊ณผ ๋ค์ค ์คํธ๋ฆผ ์ํฅ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ์๋ฏธ-์ํฅ ๋์ฝ๋ฉ ๋ชจ๋์ด ์์ฑ๋ ์๋ฏธ ํ ํฐ์ ์ค์๊ฐ์ผ๋ก ์์ฑ ์ ํธ๋ก ๋ณํํฉ๋๋ค. ์ด๋ฌํ ์ค๊ณ๋ 150ms ์ดํ์ ๋ฎ์ ์ง์ฐ ์๊ฐ์ผ๋ก ์ค์๊ฐ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉด์๋ ๊ณ ํ์ง ์์ฑ์ ์์ฑํฉ๋๋ค.
ํนํ, ์ ๋ก์ท ์์ฑ ๋ณต์ ์คํ์์ FireRedTTS-1S๋ ์ฐ์ ๊ณ ๊ธฐ์ค ์์คํ ๊ณผ ๋น๊ตํด ๋ฐ์ด๋ ๋ช ๋ฃ๋์ ํ์ ์ ์ฌ์ฑ์ ๋ณด์์ต๋๋ค. ๋ ๋์๊ฐ, ์ฃผ๊ด์ ํ๊ฐ์์๋ ์ค์ ๋ น์๊ณผ ์ ์ฌํ ํ์ง์ ๋ฌ์ฑํ์ฌ ๊ทธ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ์ค์๊ฐ ๊ณ ํ์ง ์์ฑ ํฉ์ฑ ๊ธฐ์ ์ ๋ฐ์ ์ ํฌ๊ฒ ๊ธฐ์ฌํ ๋ฟ๋ง ์๋๋ผ, ๋ค์ํ ์์ฉ ๋ถ์ผ์์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ฑ ๋์ผ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. FireRedTTS-1S๋ ๋จ์ํ ๊ธฐ์ ์ ์ง๋ณด๋ฅผ ๋์ด, ์์ฐ์ค๋ฝ๊ณ ์ค๊ฐ๋๋ ์์ฑ ์์ฑ์ ํตํด ์ธ๊ฐ๊ณผ ๊ธฐ๊ณ์ ์ํต์ ํ์ธต ๋ ํ๋ถํ๊ฒ ๋ง๋ค์ด์ค ํ์ ์ ์ธ ์์คํ ์ด๋ผ ํ ์ ์์ต๋๋ค.
ํต์ฌ: ๊ณ ํ์ง, ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ, ๋ฎ์ ์ง์ฐ์๊ฐ(150ms ์ดํ), ์ ๋ก์ท ์์ฑ ๋ณต์ , ์ฐ์ ๊ณ ํ์ค ์์คํ ๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ฑ๋ฅ
Reference
[arxiv] FireRedTTS-1S: An Upgraded Streamable Foundation Text-to-Speech System
Published: ย (Updated: )
Author: Hao-Han Guo, Kun Xie, Yi-Chen Wu, Feng-Long Xie
http://arxiv.org/abs/2503.20499v1