๐จ ์ต์ํ์ ๋ ์ผ๋ก ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋น์ํค๋ค: PR-Attack์ ์ํ ๐จ
Yang Jiao, Xiaodong Wang, Kai Yang ๋ฑ ์ฐ๊ตฌ์ง์ด ๊ฐ๋ฐํ PR-Attack์ ์๋์ ์ ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ RAG ๊ธฐ๋ฐ LLM์ ๊ณต๊ฒฉํ ์ ์๋ ์๋ก์ด ๊ธฐ๋ฒ์ ๋๋ค. ์ด์ค ์์ค ์ต์ ํ๋ฅผ ํตํด ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์๋ฐ์ฑ์ ๋ฌ์ฑํ๋ฉฐ, LLM ๋ณด์ ๊ฐํ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.

์ต์ํ์ ๋ ์ผ๋ก ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋น์ํค๋ค: PR-Attack์ ์ํ
์ต๊ทผ ๊ธ์๋๋ก ๋ฐ์ ํ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์๋ฃ, ์ํ, ์ฝ๋ ์์ฑ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ํ์ง๋ง, ์ ๋ณด์ ์๋์ ํ๊ณ์ ํ๊ฐ ํ์์ด๋ผ๋ ์น๋ช ์ ์ธ ์ฝ์ ์ ๊ฐ์ง๊ณ ์์ฃ . ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฒ์ด ๋ฐ๋ก ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG) ์ ๋๋ค. RAG๋ LLM์ ์ง์ ๋ฒ์๋ฅผ ๋ํ์ง๋ง, ๋์์ ์๋ก์ด ๋ณด์ ์ทจ์ฝ์ฑ์ ์ผ๊ธฐํฉ๋๋ค.
Yang Jiao, Xiaodong Wang, Kai Yang ๋ฑ ์ฐ๊ตฌ์ง์ PR-Attack์ด๋ผ๋ ์๋ก์ด ๊ณต๊ฒฉ ๊ธฐ๋ฒ์ ๋ฐํํ์ต๋๋ค. ๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ด ๊ฐ์ง ์ธ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ ํ์ ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
๊ธฐ์กด ๊ณต๊ฒฉ์ ํ๊ณ:
- ์ ์ฑ ๋ฐ์ดํฐ์ ์ ํ: ์๋์ ์ ์ฑ ํ ์คํธ๋ง์ผ๋ก๋ ๊ณต๊ฒฉ ํจ๊ณผ๊ฐ ํ์ ํ ๋จ์ด์ก์ต๋๋ค.
- ํ์ง ํํผ์ ์ด๋ ค์: ๊ณต๊ฒฉ์ด ์ฝ๊ฒ ๊ฐ์ง๋์ด ํจ๊ณผ๊ฐ ๋ฎ์์ต๋๋ค.
- ๋น์ฒด๊ณ์ ์ธ ๊ณต๊ฒฉ ์์ฑ: ํด๋ฆฌ์คํฑ ์ ๊ทผ ๋ฐฉ์์ ์์กดํ์ฌ ํจ์จ์ฑ๊ณผ ์ ์ฉ์ฑ์ด ๋ฎ์์ต๋๋ค.
PR-Attack์ ํ์ : PR-Attack์ ์ด๋ฌํ ๋ฌธ์ ์ ๋ค์ ์ด์ค ์์ค ์ต์ ํ(bilevel optimization) ๋ผ๋ ์ ๊ตํ ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ํตํด ํด๊ฒฐํ์ต๋๋ค. ์๋์ ์ ์ฑ ํ ์คํธ๋ฅผ ์ง์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฃผ์ ํ๊ณ , ํ๋กฌํํธ์ ๋ฐฑ๋์ด ํธ๋ฆฌ๊ฑฐ๋ฅผ ์ฌ๋ ๋ฐฉ์์ ๋๋ค. ํธ๋ฆฌ๊ฑฐ๊ฐ ํ์ฑํ๋๋ฉด, LLM์ ํน์ ์ง๋ฌธ์ ๋ํด ๋ฏธ๋ฆฌ ์ค๊ณ๋ ์๋ต์ ์์ฑํ์ง๋ง, ๋ค๋ฅธ ์ํฉ์์๋ ์ ์์ ์ผ๋ก ๋์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ๊ณผ ์๋ฐ์ฑ์ ๋์์ ํ๋ณดํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ: ๋ค์ํ LLM๊ณผ ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ๊ด๋ฒ์ํ ์คํ์ ํตํด, PR-Attack์ ํจ๊ณผ๊ฐ ์ ์ฆ๋์์ต๋๋ค. ์๋์ ์ ์ฑ ํ ์คํธ๋ง์ผ๋ก๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ํฅ์๋ ์๋ฐ์ฑ์ ๋ณด์์ต๋๋ค.
๊ฒฐ๋ก : PR-Attack์ RAG ๊ธฐ๋ฐ LLM์ ๋ณด์ ์ทจ์ฝ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ์ฌ๋ก์ ๋๋ค. ์๋์ ์ ์ฑ ๋ฐ์ดํฐ๋ก๋ ํฐ ํผํด๋ฅผ ์ ํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, LLM์ ๋ณด์ ๊ฐํ์ ๋ํ ๋์ฑ ์ฌ๋ ์๋ ์ฐ๊ตฌ์ ๋์ ๋ฐฉ์ ๋ง๋ จ์ด ์๊ธํจ์ ์์ฌํฉ๋๋ค. ํนํ, ํ์ง ํํผ ๊ธฐ์ ๊ณผ ๊ฐ๋ ฅํ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ์ค์ํ ๊ณผ์ ๋ก ๋ ์ค๋ฅด๊ณ ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ PR-Attack์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋์ฑ ๊ฐ๋ ฅํ ๊ณต๊ฒฉ์ ์๋ฐฉํ๋ ๋ฐฉ์์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ง์๋์ด์ผ ํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
Published: ย (Updated: )
Author: Yang Jiao, Xiaodong Wang, Kai Yang
http://arxiv.org/abs/2504.07717v1