힌디어-영어 이중 언어 LLM Mantra-14B: 문화적 지식으로 성능 향상을 이룬 혁신
인도 연구팀이 개발한 힌디어-영어 이중 언어 LLM Mantra-14B는 문화적, 지역적 지식을 담은 데이터셋을 활용하여 기존 모델보다 향상된 성능을 달성했습니다. 자원 집약적인 기술 없이 다국어 성능을 개선한 이 연구는 저자원 언어 지원에 중요한 시사점을 제공하며, 관련 코드, 데이터셋, 모델이 공개되어 추가 연구를 지원합니다.

인도 연구팀, 놀라운 성과 발표! 대규모 언어 모델(LLM)의 다국어 능력 향상에 대한 새로운 지평을 열었습니다. 주목할 만한 점은 바로 Mantra-14B 라는 힌디어-영어 이중 언어 LLM입니다. 기존의 영어 중심 LLM 개발의 틀을 깨고, 저자원 언어인 힌디어의 성능 향상에 성공한 것입니다.
Ram Mohan Rao Kadiyala 등 연구진은 485,000개의 힌디어-영어 교육 데이터를 사용하여 Qwen-2.5-14B-Instruct 및 Phi-4 모델을 미세 조정했습니다. 그 결과, Mantra-14B는 벤치마크 점수에서 평균 3% 향상이라는 괄목할 만한 결과를 얻었는데, 이는 규모가 두 배나 큰 모델들을 능가하는 성과입니다! 140회가 넘는 다양한 비율의 힌디어-영어 데이터 훈련 시도를 거친 결과, 모델 크기를 유지하면서 다국어 성능을 크게 향상시킬 수 있다는 것을 증명했습니다.
흥미로운 점은 연구진이 어휘 확장이나 모델 구조 변경과 같은 자원 집약적인 기술을 사용하지 않았다는 것입니다. 대신, 문화적, 지역적 지식이 풍부한 데이터셋을 활용하여 효율적으로 성능을 향상시켰습니다. 이는 계산 비용을 절감하고, 환경 친화적인 AI 개발에 기여하는 중요한 발견입니다.
이 연구는 저자원 언어 지원에 대한 새로운 가능성을 제시합니다. 연구팀은 Mantra-14B의 훈련 코드, 데이터셋, 그리고 모델을 MIT와 Apache 라이선스 하에 공개하여, 다른 연구자들이 저자원 언어에 대한 연구를 지속할 수 있도록 지원하고 있습니다. 이는 AI 기술의 발전에 있어서 공유와 협력의 중요성을 보여주는 또 다른 사례입니다.
결론적으로, Mantra-14B는 단순한 기술적 발전을 넘어, 문화적 다양성을 존중하고 저자원 언어 사용자들에게 AI 기술의 혜택을 확대하고자 하는 중요한 시도를 보여줍니다. 앞으로 이러한 연구가 더욱 확대되어, 모든 언어 사용자들이 AI 기술을 통해 더욱 풍요로운 삶을 누릴 수 있기를 기대합니다.
Reference
[arxiv] Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance
Published: (Updated: )
Author: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Hamza Farooq
http://arxiv.org/abs/2504.09753v1