방글라데시어를 위한 획기적인 LLM, TituLLMs 등장!
방글라데시어를 위한 최초의 대규모 사전 훈련 언어 모델 TituLLMs가 개발되었으며, 10억 및 30억 매개변수 크기의 두 가지 모델과 5개의 새로운 벤치마킹 데이터셋이 공개되었습니다. 이는 저자원 언어 처리 분야에 중요한 기여를 할 것으로 기대됩니다.

방글라데시어 자연어 처리의 새 지평을 연 TituLLMs
최근, 방글라데시의 연구진들이 개발한 TituLLMs라는 혁신적인 언어 모델이 학계의 주목을 받고 있습니다. TituLLMs는 방글라데시어를 위한 최초의 대규모 사전 훈련 언어 모델로, 10억 및 30억 개의 매개변수를 가진 두 가지 버전으로 제공됩니다. 이는 계산 자원의 제약을 고려하여 상대적으로 작은 크기의 모델을 선택한 결과이지만, 방글라데시어 처리 성능에 있어서 상당한 발전을 이루었습니다.
약 370억 개의 토큰으로 구성된 방대한 사전 훈련 데이터셋을 바탕으로 학습된 TituLLMs는, Llama-3.2 토크나이저를 확장하여 방글라데시어의 언어 및 문화적 특징을 효과적으로 반영하도록 설계되었습니다. 이를 통해 더 빠른 학습 및 추론 속도를 달성할 수 있었습니다.
하지만 연구진은 또 다른 중요한 과제에 직면했습니다. 바로 방글라데시어 LLM을 평가할 수 있는 벤치마킹 데이터셋의 부재였습니다. 이 문제를 해결하기 위해, 연구진은 5개의 새로운 벤치마킹 데이터셋을 직접 개발하여 TituLLMs를 포함한 다양한 LLM들의 성능을 객관적으로 비교 평가했습니다.
평가 결과, TituLLMs는 기존의 다국어 모델보다 우수한 성능을 보였지만, 모든 경우에 그런 것은 아니라는 점을 강조했습니다. 이는 저자원 언어에 대한 언어 모델 적용의 복잡성을 보여주는 중요한 발견입니다. 하지만 이러한 어려움에도 불구하고, TituLLMs는 기존의 다국어 모델을 저자원 언어에 적용하는 방법을 제시하는 중요한 이정표가 되었습니다.
더욱 중요한 점은, 연구진이 TituLLMs 모델과 벤치마킹 데이터셋을 모두 공개적으로 제공한다는 것입니다. (https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a) 이는 전 세계 연구자들이 TituLLMs를 활용하여 방글라데시어 자연어 처리 분야의 연구를 더욱 심도 있게 진행하고, 다양한 응용 프로그램을 개발하는 데 크게 기여할 것으로 예상됩니다. TituLLMs는 단순한 언어 모델을 넘어, 저자원 언어 처리 분야의 발전을 위한 중요한 도약을 보여주는 사례입니다.
Shahriar Kabir Nahin 등 10명의 연구자들이 이룬 이 쾌거는 방글라데시어 자연어 처리 분야의 미래를 밝게 비추는 등불과 같습니다. 🎉
Reference
[arxiv] TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking
Published: (Updated: )
Author: Shahriar Kabir Nahin, Rabindra Nath Nandi, Sagor Sarker, Quazi Sarwar Muhtaseem, Md Kowsher, Apu Chandraw Shill, Md Ibrahim, Mehadi Hasan Menon, Tareq Al Muntasir, Firoj Alam
http://arxiv.org/abs/2502.11187v1