RAG(Retrieval-Augmented Generation)의 양면성: 공정성 문제와 해결책
소규모 LLM에서 RAG 적용 시 공정성 문제 발생 및 이를 해결하기 위한 FairFT와 FairFilter 제안. LLM 규모에 따른 RAG의 공정성 영향 차이를 분석하고, AI 기술의 윤리적 책임감을 강조하는 연구 결과.

최근 급부상하고 있는 RAG(Retrieval-Augmented Generation)는 외부 지식 소스에서 관련 문서를 검색하여 LLM(Large Language Model)을 향상시키는 기술입니다. 이는 LLM의 환각(hallucination) 문제를 줄이고 사실적으로 정확한 결과를 생성하는 데 크게 기여합니다. 하지만, Zhang Zheng 등의 연구진이 발표한 논문, "The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation" 은 RAG의 밝은 면만을 보여주는 것은 아니라는 것을 보여줍니다.
연구진은 다양한 LLM, 검색 엔진, 검색 소스를 사용하여 광범위한 실험을 수행했습니다. 그 결과, 놀랍게도 80억 파라미터 미만의 소규모 LLM(예: LLaMA3.2-1B, Mistral-7B, LLaMA3-8B)에서는 RAG가 오히려 공정성을 악화시킨다는 사실을 발견했습니다. 즉, RAG를 통해 더욱 불공정한 결과가 생성될 수 있다는 것입니다. 이것은 RAG 기술의 단순한 성능 향상만을 고려해서는 안 된다는 중요한 시사점을 제시합니다.
하지만 희망적인 소식도 있습니다. 연구진은 이러한 문제를 해결하기 위해 두 가지 새로운 접근법, FairFT 와 FairFilter 를 제안했습니다.
- FairFT: 검색 엔진과 LLM의 공정성을 일치시켜, 더욱 공정한 결과를 생성하는 문서를 검색하는 방법입니다. 즉, 검색 단계부터 공정성을 고려하는 것이죠.
- FairFilter: 검색 후, 편향된 콘텐츠를 걸러내는 필터링 메커니즘입니다. 즉, 불공정한 정보가 LLM에 영향을 미치는 것을 사전에 차단하는 것입니다.
연구진은 실제 데이터셋을 사용하여 이 두 가지 방법의 효과를 검증했고, 성능 저하 없이 공정성을 향상시키는 것을 확인했습니다. 이 연구는 단순히 성능 향상에만 집중하는 것이 아니라, AI 기술의 윤리적, 사회적 영향을 고려하는 것이 얼마나 중요한지 강조하는 의미있는 결과를 제시합니다. 특히, LLM의 규모에 따라 RAG의 영향이 다르게 나타나므로, 앞으로는 모델의 규모에 맞는 적절한 공정성 개선 전략을 개발하는 것이 중요한 과제가 될 것입니다. 이러한 발견은 AI 개발자들에게 더욱 책임감 있는 기술 개발을 촉구하는 중요한 메시지가 될 것입니다.
Reference
[arxiv] The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation
Published: (Updated: )
Author: Zheng Zhang, Ning Li, Qi Liu, Rui Li, Weibo Gao, Qingyang Mao, Zhenya Huang, Baosheng Yu, Dacheng Tao
http://arxiv.org/abs/2504.12323v2