인도 언어를 위한 소형 언어 모델의 가능성: TinyStories 연구 확장


본 연구는 소형 언어 모델(SLM)을 이용하여 인도 언어(힌디어, 마라티어, 벵갈어)의 처리 성능을 평가하고, 언어별 토크나이저의 중요성과 합성 데이터셋의 효과를 밝혔습니다. 이를 통해 저개발 언어에 대한 SLM의 실용적 적용 가능성을 확장하고, 신경망 언어 발달에 대한 이론적 이해를 심화시켰습니다.

related iamge

인도 언어를 위한 소형 언어 모델의 가능성: TinyStories 연구 확장

2023년 TinyStories 연구는 소형 언어 모델(SLM)이 영어 데이터셋에서 일관된 결과물을 생성할 수 있음을 보여주었습니다. 하지만 이는 영어에 국한된 이야기였습니다. 인도의 다양한 언어들은 각기 다른 어휘와 문법 구조를 가지고 있어, SLM의 효율성과 적용 가능성에 대한 추가적인 연구가 필요했습니다.

Nirvan Patil을 비롯한 연구팀은 이러한 한계를 극복하고자, TinyStories 연구를 인도 언어로 확장하는 획기적인 연구를 진행했습니다. 그들은 영어 데이터셋을 힌디어, 마라티어, 벵갈어로 번역하고, 더 나아가 LLM을 이용해 합성 데이터셋을 생성했습니다. 이를 통해 인도 언어에 대한 SLM의 성능을 종합적으로 평가하고, 토크나이징 전략 및 언어적 복잡성에 대한 '추론 기반 평가' 프레임워크를 제시했습니다.

연구 결과는 놀라웠습니다. SLM은 LLM보다 훨씬 적은 매개변수로 인도 언어를 효율적으로 처리했습니다. 특히, 언어별 토크나이저가 일반적인 토크나이저보다 인도 언어 처리에 훨씬 효과적이라는 사실이 밝혀졌습니다. 정보이론 및 형태론적 분석을 통해 힌디어 모델이 마라티어 및 벵갈어 모델보다 우수한 성능을 보이는 이유를 밝혀냈습니다. 또한, SLM 학습에는 합성 데이터셋이 번역된 데이터셋보다 더 효과적이라는 사실을 확인했습니다.

흥미로운 점은, 연구팀이 창의성, 문법 정확성, 서술 완성도 간의 상관관계를 분석하여 언어 간 패턴과 언어별 관계를 밝혀냈다는 것입니다. 이 연구는 단순히 기술적인 성과를 넘어, 인도 언어의 다양성과 복잡성을 이해하는 데 중요한 통찰력을 제공합니다.

이 연구는 저개발 언어에 대한 SLM의 실용적 적용을 확장하고, 신경망 언어 발달에 대한 이론적 이해를 심화시키는 데 기여할 것입니다. 인공지능 기술의 발전이 다양한 언어와 문화를 포용하는 방향으로 나아가는 중요한 발걸음입니다. 👩‍💻🌍


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance

Published:  (Updated: )

Author: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat

http://arxiv.org/abs/2504.07989v1