๐Ÿšจ ์ตœ์†Œํ•œ์˜ ๋…์œผ๋กœ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์„ ๋งˆ๋น„์‹œํ‚ค๋‹ค: PR-Attack์˜ ์œ„ํ˜‘ ๐Ÿšจ


Yang Jiao, Xiaodong Wang, Kai Yang ๋“ฑ ์—ฐ๊ตฌ์ง„์ด ๊ฐœ๋ฐœํ•œ PR-Attack์€ ์†Œ๋Ÿ‰์˜ ์•…์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ RAG ๊ธฐ๋ฐ˜ LLM์„ ๊ณต๊ฒฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ์€๋ฐ€์„ฑ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, LLM ๋ณด์•ˆ ๊ฐ•ํ™”์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

related iamge

์ตœ์†Œํ•œ์˜ ๋…์œผ๋กœ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์„ ๋งˆ๋น„์‹œํ‚ค๋‹ค: PR-Attack์˜ ์œ„ํ˜‘

์ตœ๊ทผ ๊ธ‰์†๋„๋กœ ๋ฐœ์ „ํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์˜๋ฃŒ, ์ˆ˜ํ•™, ์ฝ”๋“œ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋†€๋ผ์šด ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ •๋ณด์˜ ์‹œ๋Œ€์  ํ•œ๊ณ„์™€ ํ™˜๊ฐ ํ˜„์ƒ์ด๋ผ๋Š” ์น˜๋ช…์ ์ธ ์•ฝ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์ฃ . ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๊ฒƒ์ด ๋ฐ”๋กœ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ์ž…๋‹ˆ๋‹ค. RAG๋Š” LLM์˜ ์ง€์‹ ๋ฒ”์œ„๋ฅผ ๋„“ํžˆ์ง€๋งŒ, ๋™์‹œ์— ์ƒˆ๋กœ์šด ๋ณด์•ˆ ์ทจ์•ฝ์„ฑ์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

Yang Jiao, Xiaodong Wang, Kai Yang ๋“ฑ ์—ฐ๊ตฌ์ง„์€ PR-Attack์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๊ธฐ๋ฒ•์„ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ•๋“ค์ด ๊ฐ€์ง„ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•œ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๊ณต๊ฒฉ์˜ ํ•œ๊ณ„:

  1. ์•…์„ฑ ๋ฐ์ดํ„ฐ์˜ ์ œํ•œ: ์†Œ๋Ÿ‰์˜ ์•…์„ฑ ํ…์ŠคํŠธ๋งŒ์œผ๋กœ๋Š” ๊ณต๊ฒฉ ํšจ๊ณผ๊ฐ€ ํ˜„์ €ํžˆ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค.
  2. ํƒ์ง€ ํšŒํ”ผ์˜ ์–ด๋ ค์›€: ๊ณต๊ฒฉ์ด ์‰ฝ๊ฒŒ ๊ฐ์ง€๋˜์–ด ํšจ๊ณผ๊ฐ€ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค.
  3. ๋น„์ฒด๊ณ„์ ์ธ ๊ณต๊ฒฉ ์ƒ์„ฑ: ํœด๋ฆฌ์Šคํ‹ฑ ์ ‘๊ทผ ๋ฐฉ์‹์— ์˜์กดํ•˜์—ฌ ํšจ์œจ์„ฑ๊ณผ ์ ์šฉ์„ฑ์ด ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค.

PR-Attack์˜ ํ˜์‹ : PR-Attack์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ๋“ค์„ ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™”(bilevel optimization) ๋ผ๋Š” ์ •๊ตํ•œ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์†Œ๋Ÿ‰์˜ ์•…์„ฑ ํ…์ŠคํŠธ๋ฅผ ์ง€์‹ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์ฃผ์ž…ํ•˜๊ณ , ํ”„๋กฌํ”„ํŠธ์— ๋ฐฑ๋„์–ด ํŠธ๋ฆฌ๊ฑฐ๋ฅผ ์‹ฌ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํŠธ๋ฆฌ๊ฑฐ๊ฐ€ ํ™œ์„ฑํ™”๋˜๋ฉด, LLM์€ ํŠน์ • ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋ฏธ๋ฆฌ ์„ค๊ณ„๋œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜์ง€๋งŒ, ๋‹ค๋ฅธ ์ƒํ™ฉ์—์„œ๋Š” ์ •์ƒ์ ์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋†’์€ ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ๊ณผ ์€๋ฐ€์„ฑ์„ ๋™์‹œ์— ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ: ๋‹ค์–‘ํ•œ LLM๊ณผ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด, PR-Attack์˜ ํšจ๊ณผ๊ฐ€ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์†Œ๋Ÿ‰์˜ ์•…์„ฑ ํ…์ŠคํŠธ๋งŒ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ํ–ฅ์ƒ๋œ ์€๋ฐ€์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก : PR-Attack์€ RAG ๊ธฐ๋ฐ˜ LLM์˜ ๋ณด์•ˆ ์ทจ์•ฝ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ์†Œ๋Ÿ‰์˜ ์•…์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋„ ํฐ ํ”ผํ•ด๋ฅผ ์ž…ํž ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, LLM์˜ ๋ณด์•ˆ ๊ฐ•ํ™”์— ๋Œ€ํ•œ ๋”์šฑ ์‹ฌ๋„ ์žˆ๋Š” ์—ฐ๊ตฌ์™€ ๋Œ€์‘ ๋ฐฉ์•ˆ ๋งˆ๋ จ์ด ์‹œ๊ธ‰ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ํƒ์ง€ ํšŒํ”ผ ๊ธฐ์ˆ ๊ณผ ๊ฐ•๋ ฅํ•œ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฐœ๋ฐœ์ด ์ค‘์š”ํ•œ ๊ณผ์ œ๋กœ ๋– ์˜ค๋ฅด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” PR-Attack์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๊ณต๊ฒฉ์„ ์˜ˆ๋ฐฉํ•˜๋Š” ๋ฐฉ์•ˆ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ง€์†๋˜์–ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization

Published: ย (Updated: )

Author: Yang Jiao, Xiaodong Wang, Kai Yang

http://arxiv.org/abs/2504.07717v1