깨끗한 데이터에도 도사리는 함정? AI의 자기합리화 위험성 규명
본 연구는 깨끗한 데이터에서조차 AI의 자기합리화 과정에서 허위 상관관계가 발생할 수 있음을 밝히고, 이를 탐지 및 방지하는 새로운 방법을 제시합니다. 생성자와 예측자의 협력적 게임 구조를 분석하여 표본 편향의 원인을 규명하고, 공격 기반 검사 및 새로운 지침을 통해 기존 방법보다 우수한 성능을 달성했습니다. 설명 가능한 AI의 신뢰성 확보를 위한 중요한 연구입니다.

최근 AI 분야에서 설명 가능성(Explainability)에 대한 관심이 높아지면서, 모델의 예측 과정을 설명하는 '합리화(Rationalization)' 기법이 주목받고 있습니다. 그러나 중국과학원 등의 연구진이 발표한 논문, "Adversarial Cooperative Rationalization: The Risk of Spurious Correlations in Even Clean Datasets"는 깨끗한 데이터셋에서조차 합리화 과정에서 심각한 문제점을 지적하고 있습니다.
협력적 게임, 예상치 못한 함정에 빠지다
이 연구는 생성자(Generator)와 예측자(Predictor)가 협력하는 게임 이론적 구조를 기반으로 한 합리화 프레임워크를 분석합니다. 생성자는 입력 데이터에서 가장 중요한 부분을 추출하고, 예측자는 이 추출된 부분을 사용하여 예측을 수행합니다. 두 요소는 예측 정확도를 극대화하도록 협력적으로 학습됩니다. 하지만 연구진은 이 협력적 게임에서 예상치 못한 '표본 편향(sampling bias)'이 발생할 수 있음을 발견했습니다. 생성자가 원래 데이터에서 의미적으로 관련이 없는 부분을 선택하여, 마치 그것이 예측 결과와 관련이 있는 것처럼 잘못된 상관관계를 만들어낼 수 있다는 것입니다.
이론적 분석과 실험적 증거: 허위 상관관계의 실체
연구진은 이론적 분석과 실험적 증거를 통해 이러한 편향의 원인을 상세히 밝혔습니다. 여섯 개의 텍스트 분류 데이터셋과 두 개의 그래프 분류 데이터셋에 GRU, BERT, GCN 등 세 가지 네트워크 아키텍처를 적용하여 실험한 결과, 생성자는 실제로 의미 없는 부분과 레이블 사이에 허위 상관관계를 만들어내는 것을 확인했습니다. 흥미롭게도, 이렇게 만들어진 잘못된 상관관계는 최신의 대규모 언어 모델인 Llama3.1-8b-instruct의 성능과 비교해도 뛰어난 성능을 보이는 경우가 있었습니다. 이는 단순히 데이터의 양이나 모델의 크기가 성능을 보장하지 않으며, 합리화 과정에서 발생하는 오류가 얼마나 심각한지 보여주는 사례입니다.
공격 기반 검사 및 방지 전략: AI의 신뢰성 확보를 위한 새로운 돌파구
연구진은 이러한 허위 상관관계를 공격(attack) 기반으로 검사하는 방법과 예측자가 이러한 상관관계를 학습하지 못하도록 하는 새로운 지침을 제시했습니다. 실험 결과, 이 방법은 기존의 합리화 방법들을 뛰어넘는 성능을 보였을 뿐만 아니라, Llama3.1-8b-instruct와 비슷하거나 더 나은 결과를 달성했습니다. 이는 AI 모델의 신뢰성을 높이는 데 중요한 발걸음이 될 것으로 기대됩니다.
결론: 설명 가능한 AI, 더욱 엄격한 검증 필요
이 연구는 설명 가능한 AI의 발전에 중요한 함의를 제공합니다. 단순히 예측 성능만을 고려하는 것이 아니라, 합리화 과정에서 발생할 수 있는 허위 상관관계를 면밀히 검토하고 방지하는 노력이 필수적임을 강조합니다. 앞으로 설명 가능한 AI 개발에는 이러한 위험성에 대한 인식과 더욱 엄격한 검증 방법론의 개발이 요구됩니다. 이 연구는 이러한 방향을 제시함으로써 AI 기술의 안전하고 신뢰할 수 있는 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] Adversarial Cooperative Rationalization: The Risk of Spurious Correlations in Even Clean Datasets
Published: (Updated: )
Author: Wei Liu, Zhongyu Niu, Lang Gao, Zhiying Deng, Jun Wang, Haozhao Wang, Ruixuan Li
http://arxiv.org/abs/2505.02118v3