딥러닝 보안의 혁신: 간접 프롬프트 주입 공격 방어 기술, CachePrune


Rui Wang 등 8명의 연구진이 개발한 CachePrune은 거대 언어 모델(LLM)의 간접 프롬프트 주입 공격에 대한 효과적인 방어 메커니즘입니다. DPO 목표의 상한선에서 유도된 손실 함수를 사용하여 작업 트리거링 뉴런을 식별하고 제거함으로써, 응답 품질 저하 없이 공격 성공률을 크게 감소시킵니다.

related iamge

최근 거대 언어 모델(LLM)의 놀라운 발전에도 불구하고, 보안 취약성 문제는 여전히 큰 과제로 남아 있습니다. 특히, 간접 프롬프트 주입 공격은 LLM이 사용자의 지시를 무시하고 프롬프트 컨텍스트에 삽입된 작업을 실행하는 심각한 문제입니다. 이는 LLM이 프롬프트 내의 데이터와 지시사항을 구분하지 못하기 때문에 발생합니다.

이러한 문제를 해결하기 위해, Rui Wang을 비롯한 8명의 연구진은 획기적인 방어 메커니즘인 CachePrune을 제시했습니다. CachePrune은 LLM의 프롬프트 컨텍스트 KV 캐시에서 작업 트리거링 뉴런을 식별하고 제거하는 기술입니다. 이를 통해 LLM은 입력 프롬프트 컨텍스트의 텍스트 구간을 순수한 데이터로만 처리하도록 유도하여 간접 프롬프트 주입 공격을 방어합니다.

핵심 기술은 Direct Preference Optimization (DPO) 목표의 상한선에서 유도된 손실 함수를 사용한 특징 귀속(feature attribution) 입니다. 이 손실 함수는 적은 수의 샘플만으로도 효과적인 특징 귀속을 가능하게 합니다. 더 나아가, 연구진은 지시 사항 수행 시 관찰되는 트리거링 효과를 활용하여 특징 귀속의 품질을 더욱 향상시켰습니다.

CachePrune의 장점은 원래 프롬프트의 형식을 변경하거나 추가적인 테스트 시간 LLM 호출을 도입하지 않는다는 점입니다. 실험 결과, CachePrune은 응답 품질을 저해하지 않으면서 공격 성공률을 크게 줄이는 것으로 나타났습니다.

이 연구는 더욱 안전하고 강력한 AI 시스템 개발을 위한 중요한 발걸음이며, LLM 보안 분야에 큰 영향을 미칠 것으로 기대됩니다. 앞으로 CachePrune의 실제 적용과 더욱 발전된 기술들이 등장할지 주목할 필요가 있습니다. 이 연구는 AI 시스템의 안전성 향상에 기여하는 중요한 성과이며, 향후 연구 방향에 대한 새로운 가능성을 제시합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks

Published:  (Updated: )

Author: Rui Wang, Junda Wu, Yu Xia, Tong Yu, Ruiyi Zhang, Ryan Rossi, Lina Yao, Julian McAuley

http://arxiv.org/abs/2504.21228v1