소규모 언어 모델의 혁신: RoSPrompt로 다국어 제로샷 분류의 한계를 넘어서다


소규모 다국어 PLM을 위한 새로운 소프트 프롬프트 튜닝 방법인 RoSPrompt가 제안되어 다국어 제로샷 분류 성능을 향상시키고 데이터 분포 변화에 대한 강력한 일반화 능력을 보여주었습니다. 106개 언어에 대한 실험 결과를 통해 그 효과가 검증되었습니다.

related iamge

자연어 처리(NLP) 분야에서 제로샷 분류(ZSC)는 특히 저자원 언어 및 데이터 부족 환경에서 핵심적인 기술로 자리 잡았습니다. 기존의 대규모 사전 학습 언어 모델(PLM)은 ZSC에 효과적이지만, 방대한 훈련 데이터나 외부 지식에 의존하는 경우가 많아 다국어 및 저자원 환경에는 적용하기 어려웠습니다.

최근 자연어 프롬프트를 활용하는 접근 방식이 등장했지만, 관련 분류 작업에서 얻은 기존의 레이블 데이터를 효과적으로 통합하는 데 어려움을 겪었습니다. 특히, 이러한 데이터셋이 서로 다른 언어나 분포에서 유래한 경우 더욱 그러했습니다. 또한, 기존의 프롬프트 기반 방법은 특정 언어로 수동으로 작성된 프롬프트에 의존하여, 다국어 환경에서의 적응성과 효율성이 떨어지는 문제점을 가지고 있었습니다.

Fred Philippy, Siwen Guo 등 연구진은 이러한 문제를 해결하기 위해 경량적이고 데이터 효율적인 접근 방식인 RoSPrompt를 제안합니다. RoSPrompt는 다국어 ZSC를 향상시키면서 데이터 분포 변화에 대한 강력한 일반화 능력을 보장하는 소프트 프롬프트를 훈련하는 데 초점을 맞추었습니다. 소규모 다국어 PLM에 적용되어 고자원 언어를 활용하여 저자원 언어의 성능을 향상시키는 동시에 광범위한 미세 조정이나 높은 계산 비용을 필요로 하지 않습니다.

106개 언어를 포함하는 여러 다국어 PLM 및 데이터셋을 사용한 평가 결과, RoSPrompt는 우수한 다국어 전이 성능과 미지의 클래스에 대한 강력한 일반화 능력을 보여주었습니다. 이는 소규모 언어 모델의 성능을 크게 향상시키고 다국어 자연어 처리 분야에 혁신적인 발전을 가져올 것으로 기대됩니다. RoSPrompt는 데이터 효율성과 다국어 지원 능력을 결합하여, 저자원 언어에 대한 ZSC 성능 향상에 새로운 가능성을 열어주었습니다.

핵심: RoSPrompt는 소규모 다국어 PLM을 강화하여 다국어 제로샷 분류의 성능을 향상시키는 새로운 방법입니다. 데이터 효율성이 높고, 고자원 언어의 지식을 저자원 언어에 효과적으로 전이시켜 일반화 능력을 높이는 것이 특징입니다. 이는 제한된 자원으로 다양한 언어를 지원해야 하는 실제 응용 분야에 큰 기여를 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning

Published:  (Updated: )

Author: Fred Philippy, Siwen Guo, Cedric Lothritz, Jacques Klein, Tegawendé F. Bissyandé

http://arxiv.org/abs/2503.19469v2