FAMA: 오픈 사이언스 시대를 여는 이탈리아어-영어 음성 기초 모델의 탄생
이탈리아어와 영어를 위한 최초의 오픈 사이언스 기반 대규모 음성 기초 모델 FAMA가 개발되었습니다. 15만 시간 이상의 오픈소스 데이터로 훈련된 FAMA는 기존 모델 대비 경쟁력 있는 성능과 최대 8배 빠른 속도를 제공하며, 모든 자료를 오픈소스로 공개하여 음성 기술 연구의 투명성을 높였습니다.

Whisper나 SeamlessM4T와 같은 음성 기초 모델(SFM)의 발전은 음성 처리 분야에 혁신을 가져왔습니다. 하지만, 훈련 데이터와 코드가 비공개라는 점은 재현성과 공정한 평가에 어려움을 야기했습니다. 다른 분야에서는 오픈소스 코드와 데이터를 활용한 투명한 모델 개발을 통해 오픈 사이언스가 크게 발전했지만, 음성 분야는 아직까지 그러한 노력이 부족했습니다.
이러한 한계를 극복하기 위해, Sara Papi 등 9명의 연구자는 FAMA, 즉 이탈리아어와 영어를 위한 최초의 오픈 사이언스 기반 대규모 음성 기초 모델을 개발했습니다! FAMA는 15만 시간 이상의 오픈소스 음성 데이터를 사용하여 훈련되었으며, 16,000시간에 달하는 청소 및 의사 레이블링된 새로운 음성 데이터셋도 함께 공개되었습니다. 놀랍게도, FAMA는 기존 SFM과 비교하여 경쟁력 있는 성능을 보이는 동시에 최대 8배나 빠른 속도를 자랑합니다!
단순히 성능만 향상된 것이 아닙니다. FAMA의 진정한 가치는 오픈 사이언스에 있습니다. 코드, 데이터셋, 모델 모두 오픈소스 라이선스 하에 공개되어, 누구나 자유롭게 접근하고 활용하며, 더 나은 모델을 개발하고 연구를 발전시킬 수 있습니다. 이는 음성 기술 연구의 투명성을 높이고, 전 세계 연구자들의 협력을 촉진하는 중요한 전환점이 될 것입니다.
FAMA의 등장은 단순한 기술적 발전을 넘어, 오픈 사이언스를 향한 한걸음 더 나아가는 의미 있는 사건입니다. 이탈리아어와 영어를 시작으로, 앞으로 더욱 다양한 언어를 지원하는 오픈 사이언스 기반의 음성 모델들이 등장하여 전 세계 사람들에게 더욱 포괄적인 음성 기술 접근성을 제공할 수 있기를 기대해봅니다. 이는 음성 인식, 음성 합성 등 다양한 분야에 혁신을 가져올 뿐 아니라, AI 기술의 윤리적이고 지속가능한 발전에도 크게 기여할 것입니다.
Reference
[arxiv] FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
Published: (Updated: )
Author: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
http://arxiv.org/abs/2505.22759v2