Amplify Initiative: 전 세계 AI를 위한 현지화된 데이터 플랫폼 구축


Amplify Initiative는 지역적 맥락과 다양한 언어를 고려하지 못하는 기존 AI 모델의 한계를 극복하기 위해 아프리카 5개국 현지 전문가들과 협력하여 다국어 데이터셋을 구축한 프로젝트입니다. 이를 통해 AI 모델의 안전성과 문화적 적합성을 평가하고 개선하는 데 기여할 것으로 기대됩니다.

related iamge

글로벌 AI의 지역적 한계를 넘어서다: Amplify Initiative

현재의 AI 모델들은 주로 영어와 서구 인터넷 콘텐츠를 기반으로 학습되기 때문에 지역적 맥락과 언어를 제대로 반영하지 못하는 경우가 많습니다. 이는 전 세계 사용자가 증가함에 따라 AI 모델의 글로벌 적합성, 유용성, 안전성에 심각한 문제를 야기합니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 Amplify Initiative입니다. Amplify Initiative는 전문가 커뮤니티를 활용하여 다양하고 고품질의 데이터를 수집하는 데이터 플랫폼이자 방법론입니다. 이 플랫폼은 데이터셋 공동 생성, 고품질 다국어 데이터셋 접근, 데이터 작성자에 대한 인정 제공을 목표로 설계되었습니다.

아프리카 5개국 현지 전문가와의 성공적인 협력

본 논문에서는 아프리카 사하라 이남 지역(가나, 케냐, 말라위, 나이지리아, 우간다)에서 진행된 파일럿 연구를 통해 도메인 전문가(의료 종사자, 교사 등)와 데이터셋을 공동으로 생성하는 접근 방식을 제시합니다. 현지 연구자들과의 파트너십을 통해 의사, 은행가, 인류학자, 인권 옹호자 등 155명의 전문가들과 협력하여 데이터를 구축했습니다.

Android 앱을 활용하여 구현된 이 접근 방식은 루간다어, 스와힐리어, 치체와어 등 7개 언어로 된 8,091개의 적대적 질의 데이터셋을 생성했습니다. 이 데이터셋은 잘못된 정보, 공익 주제 등 주요 테마와 관련된 뉘앙스 있고 맥락적인 정보를 담고 있습니다.

AI 모델의 안전성과 문화적 적합성 평가를 위한 핵심 데이터셋

이렇게 수집된 데이터셋은 해당 언어권에서 AI 모델의 안전성과 문화적 적합성을 평가하는 데 활용될 수 있습니다. Amplify Initiative는 단순한 데이터 플랫폼을 넘어, AI 모델의 글로벌 확장에 있어 지역적 맥락과 다양성을 고려하는 중요한 발걸음을 제시합니다. 이는 AI 기술의 윤리적이고 공정한 발전에 기여할 뿐만 아니라, 전 세계 사람들에게 더욱 유용하고 안전한 AI 서비스를 제공하는 데 중요한 역할을 할 것으로 기대됩니다. 다양한 언어와 문화적 배경을 반영한 데이터 구축은 AI의 글로벌화에 필수적인 요소이며, Amplify Initiative는 이러한 중요한 과제에 대한 훌륭한 해결책을 제시하고 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Amplify Initiative: Building A Localized Data Platform for Globalized AI

Published:  (Updated: )

Author: Qazi Mamunur Rashid, Erin van Liemt, Tiffany Shih, Amber Ebinama, Karla Barrios Ramos, Madhurima Maji, Aishwarya Verma, Charu Kalia, Jamila Smith-Loud, Joyce Nakatumba-Nabende, Rehema Baguma, Andrew Katumba, Chodrine Mutebi, Jagen Marvin, Eric Peter Wairagala, Mugizi Bruce, Peter Oketta, Lawrence Nderu, Obichi Obiajunwa, Abigail Oppong, Michael Zimba, Data Authors

http://arxiv.org/abs/2504.14105v1