싱글리시를 위한 AI 안전성 확보: 새로운 접근법


싱가포르 국립대 연구팀은 저자원 언어인 싱글리시에서 AI 모델의 안전성을 높이는 새로운 방법을 개발했습니다. 기존 방법의 한계를 극복하고 KTO와 SFT, 그리고 새로운 알고리즘 KTO-S를 통해 독성을 99% 감소시키는 성과를 거두었습니다. 이 연구는 저자원 언어 환경에서의 AI 안전성 확보에 중요한 전기를 마련했습니다.

related iamge

싱가포르 국립대학교 연구팀(Isaac Lim, Shaun Khoo, Watson Chua, Goh Jiayi, Jessica Foo)은 최근 발표한 논문에서 저자원 언어 환경에서의 AI 모델 안전성 확보에 대한 획기적인 접근법을 제시했습니다. 이 연구는 특히 싱글리시(싱가포르식 영어 크리올)를 중심으로 진행되었는데, 기존의 대규모 언어 모델(LLM) 안전 정렬 방식의 한계를 극복하는 데 중요한 의미를 지닙니다.

기존 방식의 한계: 서구 중심적 편향

일반적으로 LLM은 인간의 가치에 맞춰 안전하게 작동하도록 '정렬' 과정을 거칩니다. 하지만 이 과정은 주로 영어 데이터에 의존하며, 서구 중심적인 가치관에 치우쳐 저자원 언어 환경에서는 효과가 제한적이었습니다. 싱글리시와 같은 언어는 이러한 서구 중심적 편향에서 더욱 큰 영향을 받을 수밖에 없죠.

혁신적인 접근법: KTO와 SFT의 조합

연구팀은 Llama3-8B 변형 모델인 SEA-Lion-v2.1-Instruct을 사용하여 싱글리시에서의 독성을 최소화하는 안전 정렬을 시도했습니다. 그 결과, 지도 학습 미세 조정(SFT)카네만-트버스키 최적화(KTO) 를 결합한 방법이 직접 선호도 최적화(DPO) 보다 훨씬 효율적이고 우수한 결과를 나타냈습니다. 흥미로운 점은 DPO가 KTO보다 약한 안전 목표를 암시적으로 적용한다는 사실이 분석을 통해 밝혀졌다는 것입니다. SFT는 KTO의 학습 안정성을 향상시키는 보완적인 역할을 수행했습니다.

KTO-S: 안정성 향상을 위한 새로운 알고리즘

연구팀은 KTO를 개선한 새로운 알고리즘인 KTO-S를 도입했습니다. KTO-S는 더 나은 기울기 활용을 통해 학습 안정성을 향상시키는 간단하면서도 효과적인 수정을 가했습니다. 덕분에 싱글리시 벤치마크에서 독성을 99%까지 감소시키는 놀라운 성과를 거두었습니다. 뿐만 아니라, 이러한 성과는 TOXIGEN 데이터셋에서도 일반화되었으며, 표준 LLM 벤치마크에서도 강력한 성능을 유지했습니다.

결론: 저자원 언어를 위한 안전한 AI의 가능성

이 연구는 저자원 영어 언어에 적합한 안전 정렬을 위한 일반적인 접근 방식을 제시하며, AI의 안전성 확보를 위한 새로운 가능성을 열었습니다. 특히 싱글리시와 같은 다양한 언어 환경에서 AI 기술이 안전하고 윤리적으로 사용될 수 있도록 하는 데 중요한 기여를 할 것으로 기대됩니다. 앞으로 이 연구가 다양한 저자원 언어에 적용되어 AI의 포용성을 확대하는 데 중요한 역할을 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study

Published:  (Updated: )

Author: Isaac Lim, Shaun Khoo, Watson Chua, Goh Jiayi, Jessica Foo

http://arxiv.org/abs/2502.12485v1