저자극 언어 음역 변환의 혁신: 변환기 기반 모델의 약진
Umer Butt, Stalin Veranasi, Günter Neumann 세 연구자는 변환기 기반 모델을 이용하여 로마자 우르두어와 우르두어 간의 저자극 언어 음역 변환 문제를 해결했습니다. MLM 사전 학습과 다양한 데이터셋을 활용한 미세 조정을 통해 기존 모델들을 능가하는 성능을 달성했으며, 엄격한 평가 지표를 통해 결과의 신뢰성을 높였습니다.

정보 검색(IR) 분야에서 소외된 언어에 대한 관심이 높아지고 있지만, 저자극 언어에 대한 기술 개발은 여전히 큰 과제입니다. Umer Butt, Stalin Veranasi, Günter Neumann 세 연구자는 최근 연구에서 남아시아에서 널리 사용되는 우르두어와 로마자 우르두어 간의 음역 변환 문제에 주목했습니다. 기존 연구에서는 RNN을 사용한 Roman-Urdu-Parl 데이터셋을 이용했지만, 도메인 적응력이 떨어지고 평가 방식이 부족한 한계를 드러냈습니다.
이에 연구진은 m2m100 다국어 번역 모델을 기반으로 한 새로운 접근 방식을 제시합니다. 핵심은 masked language modeling (MLM) 사전 학습과 Roman-Urdu-Parl 및 Dakshina 데이터셋을 활용한 미세 조정입니다. Dakshina 데이터셋의 도입은 다양한 도메인에 대한 적응력을 높이는 데 기여했습니다. 더 나아가, 연구진은 기존 연구의 평가 방식의 부족함을 인지하고 BLEU, 문자 단위 BLEU, CHRF 등 더욱 엄격한 평가 지표를 도입하여 결과의 신뢰성을 높였습니다.
그 결과는 놀랍습니다. 제안된 모델은 우르두어에서 로마자 우르두어로의 변환에서 문자 단위 BLEU 점수 96.37, 로마자 우르두어에서 우르두어로의 변환에서 97.44를 달성했습니다. 이는 기존 RNN 기반 모델과 GPT-4o Mini 모델을 뛰어넘는 성과이며, 저자극 언어 음역 변환 분야에서 다국어 전이 학습의 효과를 명확히 보여줍니다. 이 연구는 정보 접근성 향상에 크게 기여할 뿐만 아니라, 다양한 저자극 언어 처리 기술 개발에 새로운 가능성을 제시한다는 점에서 큰 의미를 가집니다.
이 연구는 단순한 기술적 진보를 넘어, 소외된 언어 사용자들의 정보 접근성 향상이라는 사회적 책임을 다하는 중요한 발걸음입니다. 향후 연구에서는 더욱 다양한 저자극 언어에 대한 적용 및 성능 개선을 기대할 수 있습니다. 이를 통해 언어의 장벽을 허물고, 더욱 포용적인 디지털 사회를 구축하는데 기여할 것으로 예상됩니다.
Reference
[arxiv] Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models
Published: (Updated: )
Author: Umer Butt, Stalin Veranasi, Günter Neumann
http://arxiv.org/abs/2503.21530v1