중국 전통 문화 이해력 평가 벤치마크 TCC-Bench 등장: AI의 문화적 편향성 극복을 위한 도전
중국 전통 문화 이해 능력 평가를 위한 새로운 벤치마크 TCC-Bench가 개발되어, 기존 MLLM의 문화적 편향성 문제를 해결하고 더욱 포괄적인 AI 시스템 개발을 위한 중요한 발걸음을 내딛었습니다. GPT-4 기반 반자동 파이프라인과 인간 검수를 통해 고품질 데이터를 확보하고, 실험 결과를 통해 문화적 맥락 이해의 중요성을 강조했습니다.

최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로 인공지능 시스템의 다중 모달 콘텐츠 이해 및 생성 능력이 크게 향상되었습니다. 하지만 이러한 모델들은 비서구 문화적 맥락에 적용될 때 효과가 제한적이라는 문제점이 존재하며, 이는 AI의 폭넓은 적용성에 대한 우려를 불러일으킵니다.
이러한 한계를 해결하기 위해, Pengju Xu 등 11명의 연구진은 TCC-Bench(Traditional Chinese Culture understanding Benchmark) 를 제시했습니다. TCC-Bench는 중국 전통 문화에 대한 MLLM의 이해 능력을 평가하기 위해 특별히 설계된 중국어-영어 이중 언어 시각적 질문 답변(VQA) 벤치마크입니다. 박물관 유물, 일상 생활 장면, 만화 등 문화적으로 풍부하고 시각적으로 다양한 데이터를 포함하고 있습니다.
연구진은 GPT-4(텍스트 전용 모드)를 활용한 반자동 파이프라인을 통해 후보 질문을 생성하고, 인간 검수를 통해 데이터 품질을 확보하고 데이터 유출 가능성을 방지했습니다. 또한 질문 텍스트 내에 문화적 개념을 직접적으로 드러내지 않음으로써 언어적 편향을 방지했습니다.
다양한 MLLM을 대상으로 실험을 진행한 결과, 현재 모델들은 문화적으로 맥락화된 시각적 콘텐츠에 대한 추론 능력이 여전히 부족하다는 점이 드러났습니다. 이는 문화적으로 포괄적이고 맥락을 인식하는 다중 모달 시스템 개발에 대한 추가 연구의 필요성을 강조합니다. TCC-Bench의 코드와 데이터는 GitHub에서 확인할 수 있습니다.
결론적으로, TCC-Bench는 AI의 문화적 편향성을 극복하고 더욱 포괄적인 인공지능 시스템 개발을 위한 중요한 이정표를 제시합니다. 앞으로 TCC-Bench를 기반으로 한 연구가 AI의 문화적 이해 능력 향상에 크게 기여할 것으로 기대됩니다. 이 연구는 단순한 기술적 진보를 넘어, AI가 다양한 문화적 맥락을 이해하고 존중하는 방향으로 발전해야 함을 시사합니다.
Reference
[arxiv] TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
Published: (Updated: )
Author: Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao
http://arxiv.org/abs/2505.11275v1