Sailor2: 동남아시아를 항해하는 포용적인 다국어 LLM


Longxu Dou 외 37명의 연구진이 개발한 다국어 대규모 언어 모델 Sailor2는 동남아시아 13개 언어를 지원하며, GPT-4와의 비교 실험에서 뛰어난 성능을 보였습니다. Apache 2.0 라이선스로 공개되어 동남아시아 언어 발전에 기여할 것으로 기대됩니다.

related iamge

소개:

최근 Longxu Dou 외 37명의 연구진이 발표한 논문에서, 동남아시아 언어를 위한 획기적인 다국어 대규모 언어 모델(LLM)인 Sailor2가 소개되었습니다. Sailor2는 10억, 80억, 200억 매개변수의 세 가지 크기로 제공되며, 다양한 응용 프로그램에 맞춰 사용할 수 있습니다. 이는 단순한 기술적 진보를 넘어, 동남아시아 지역의 언어적 다양성을 존중하고 기술적 포용성을 확대하고자 하는 노력의 결과물입니다.

주요 특징:

  • 방대한 데이터셋: Sailor2는 Qwen2.5를 기반으로, 동남아시아 특화 4000억 토큰과 재생 토큰 1000억 토큰을 포함한 총 5000억 토큰으로 사전 훈련되었습니다. 이는 13개의 동남아시아 언어를 지원하면서 중국어와 영어에 대한 능력도 유지할 수 있게 해줍니다. 이는 기존 모델보다 훨씬 방대한 데이터를 활용한 훈련으로, 모델의 성능 향상에 크게 기여했습니다.
  • 뛰어난 성능: Sailor2-200억 매개변수 모델은 GPT-4와 동남아시아 언어를 대상으로 비교 실험한 결과, 50%의 승률을 기록했습니다. 이는 Sailor2의 우수한 성능을 보여주는 중요한 지표입니다.
  • 개발 과정 공유: 연구진은 데이터 정제, 사전 훈련, 사후 훈련, 모델 맞춤화, 평가 등 다국어 모델 개발의 다섯 가지 핵심 측면에 대한 포괄적인 쿡북을 제공합니다. 이는 다른 연구자들이 더 효율적으로 다국어 LLM을 개발할 수 있도록 돕는 중요한 자료입니다.

미래 전망:

Sailor2는 Apache 2.0 라이선스로 공개되어, 동남아시아 지역의 언어 발전과 기술 격차 해소에 크게 기여할 것으로 기대됩니다. 또한, Sailor2 쿡북은 다른 연구자들에게 영감을 주어, 소외된 언어를 위한 더욱 포용적인 LLM 개발을 가속화할 것입니다. 이 연구는 단순한 기술 발전을 넘어, 인공지능 기술의 사회적 책임과 포용성에 대한 중요한 메시지를 담고 있습니다. 앞으로 Sailor2가 동남아시아 지역의 언어와 문화 발전에 어떤 영향을 미칠지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Published:  (Updated: )

Author: Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin

http://arxiv.org/abs/2502.12982v1