챗봇 시대의 그림자: LLM 추천 시스템 공격의 새로운 지평, CheatAgent
Ning Liang-bo 등 연구진이 개발한 CheatAgent는 LLM의 인간과 유사한 의사결정 능력을 활용하여 LLM 기반 추천 시스템을 공격하는 새로운 프레임워크입니다. 최소한의 입력 수정으로 최대의 영향을 미치는 공격 전략을 통해 블랙박스 추천 시스템을 효과적으로 공격하며, AI 시스템의 보안 강화 필요성을 강조합니다.

최근 LLM(대규모 언어 모델) 기반 추천 시스템(RecSys)이 개인 맞춤형 사용자 경험을 크게 향상시키며 주목받고 있습니다. 하지만, Ning Liang-bo를 비롯한 연구진(Shijie Wang, Wenqi Fan, Qing Li, Xin Xu, Hao Chen, Feiran Huang)의 논문 “CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent”은 이러한 시스템의 안전 취약성에 대한 연구가 부족함을 지적하며, 새로운 공격 프레임워크인 CheatAgent를 제시합니다.
기존 강화학습(RL) 에이전트 기반 공격 방식은 복잡한 텍스트 입력 처리, 계획 및 추론 능력이 제한적이어서 LLM 기반 RecSys 공격에는 효과적이지 못했습니다. 하지만 연구진은 LLM의 인간과 유사한 의사결정 능력에 주목했습니다. LLM은 마치 사람처럼 생각하고 행동하는 에이전트 역할을 수행할 수 있기 때문입니다.
CheatAgent는 이러한 LLM의 능력을 활용하여 블랙박스 RecSys를 공격합니다. 블랙박스 공격은 시스템 내부를 알 수 없이 입력과 출력만 관찰하며 공격하는 방식입니다. CheatAgent는 다음과 같은 단계를 거쳐 공격을 수행합니다.
- 최적의 공격 지점 찾기: 최소한의 입력 수정으로 최대의 영향을 미치는 삽입 위치를 먼저 찾아냅니다.
- 적대적 섭동 생성: LLM 에이전트가 해당 위치에 삽입할 적대적 섭동(시스템을 교란시키는 데이터)을 생성합니다.
- 프롬프트 튜닝: 피해 RecSys의 반응을 토대로 LLM 에이전트의 공격 전략을 지속적으로 개선합니다. 이는 마치 체스 게임에서 상대의 수에 대응하며 전략을 수정하는 것과 같습니다.
연구진은 세 가지 실제 데이터셋을 사용한 실험을 통해 CheatAgent의 효과를 입증했습니다. 이는 LLM 기반 RecSys의 안전성에 대한 심각한 문제를 제기하는 동시에, AI 보안 연구의 새로운 방향을 제시하는 중요한 연구 결과입니다. 향후 LLM 기반 시스템의 안전성을 강화하기 위한 연구가 더욱 활발히 진행될 것으로 예상됩니다. CheatAgent는 단순한 공격 기법을 넘어, AI 시스템의 취약성을 분석하고 개선하는 데 중요한 통찰력을 제공합니다. 이는 마치, 새로운 바이러스의 등장이 백신 개발을 촉진하는 것과 같은 이치입니다.
결론적으로, CheatAgent는 LLM 기반 추천 시스템의 안전성에 대한 심각한 우려를 제기하며, AI 시스템의 보안 강화에 대한 중요한 시사점을 제공하는 획기적인 연구입니다.
Reference
[arxiv] CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent
Published: (Updated: )
Author: Liang-bo Ning, Shijie Wang, Wenqi Fan, Qing Li, Xin Xu, Hao Chen, Feiran Huang
http://arxiv.org/abs/2504.13192v2