AI 설명 가능성의 딜레마: 데이터 표현의 함정
본 기사는 뉴욕대학교 등의 연구진이 발표한 논문 "SHAP-based Explanations are Sensitive to Feature Representation"을 바탕으로, 데이터 엔지니어링 기법이 AI 설명 가능성에 미치는 영향과 그 함의를 분석합니다. 연구진은 단순한 데이터 전처리 과정의 변화만으로도 AI 모델의 설명이 크게 달라질 수 있으며, 이는 AI의 공정성과 신뢰성에 대한 심각한 문제를 야기할 수 있음을 지적합니다.

최근 AI의 발전과 함께, AI의 의사결정 과정을 이해하고 신뢰도를 높이기 위한 '설명 가능한 AI(XAI)'에 대한 관심이 급증하고 있습니다. 특히, SHAP(SHapley Additive exPlanations) 과 같은 지역적 특징 기반 설명 방법은 AI 모델의 예측 결과에 대한 개별 특징의 중요도를 계산하여 사람들이 이해하기 쉽도록 만들어줍니다. 하지만, 뉴욕대학교 등의 연구진이 발표한 논문 "SHAP-based Explanations are Sensitive to Feature Representation"은 이러한 XAI 기법의 취약점을 명확히 보여줍니다.
핵심 발견: 연구진은 나이를 히스토그램으로 표현하거나, 인종을 특정 방식으로 인코딩하는 등의 단순한 데이터 엔지니어링 기법이 SHAP을 포함한 여러 설명 가능성 기법의 결과를 조작할 수 있음을 밝혀냈습니다. 즉, 데이터를 어떻게 표현하느냐에 따라 AI 모델의 설명이 완전히 달라질 수 있다는 것입니다. 이는 악의적인 목적을 가진 자들이 이러한 취약점을 이용하여 차별과 같은 문제를 은폐할 수 있다는 것을 의미합니다.
이 연구는 데이터 엔지니어링 기법의 선택이 AI 모델의 설명 가능성에 미치는 영향을 체계적으로 조사한 최초의 연구입니다. 기존 연구는 데이터 편향이나 모델 조작을 통한 적대적 공격에 초점을 맞추었지만, 이 연구는 표준적인 데이터 엔지니어링 기법만으로도 설명 가능성 기법을 오도할 수 있음을 보여줍니다.
연구의 시사점: 이 연구는 단순히 기술적인 문제를 넘어, AI의 공정성, 투명성, 신뢰성에 대한 심각한 질문을 던집니다. AI 모델이 공정하고 투명하게 작동하도록 하려면, 단순히 모델 자체의 성능뿐 아니라 데이터의 표현 방식까지도 신중하게 고려해야 함을 강조합니다. 특히, 나이, 인종, 성별과 같은 민감한 속성의 표현 방식은 AI 모델의 설명 가능성에 큰 영향을 미치므로, 더욱 세심한 주의가 필요합니다.
앞으로의 과제: 이 연구는 XAI 기법의 취약점을 드러냈지만, 동시에 이러한 문제를 해결하기 위한 새로운 연구 방향을 제시합니다. 향후 연구는 데이터 표현 방식의 영향을 최소화하는 새로운 설명 가능성 기법을 개발하거나, 데이터 전처리 과정에서 발생할 수 있는 편향을 줄이는 방법을 연구하는 데 집중해야 할 것입니다. 결국, 신뢰할 수 있는 AI 시스템을 구축하기 위해서는 기술적인 혁신뿐 아니라 윤리적인 고려와 사회적 합의가 필수적입니다.
Reference
[arxiv] SHAP-based Explanations are Sensitive to Feature Representation
Published: (Updated: )
Author: Hyunseung Hwang, Andrew Bell, Joao Fonseca, Venetia Pliatsika, Julia Stoyanovich, Steven Euijong Whang
http://arxiv.org/abs/2505.08345v1