๐ŸšจAgentXploit: ๋ธ”๋ž™๋ฐ•์Šค AI ์—์ด์ „ํŠธ์˜ ๋์—†๋Š” ํƒํ—˜, ๊ทธ๋ฆฌ๊ณ  ๋ณด์•ˆ์˜ ์ค‘์š”์„ฑ๐Ÿšจ


๋ณธ ๊ธฐ์‚ฌ๋Š” LLM ๊ธฐ๋ฐ˜ AI ์—์ด์ „ํŠธ์˜ ๋ณด์•ˆ ์ทจ์•ฝ์„ฑ์„ ํƒ์ง€ํ•˜๋Š” AgentXploit ํ”„๋ ˆ์ž„์›Œํฌ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. AgentXploit์€ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•˜๋ฉฐ, ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ์ „์ด์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์„ฑ๊ณต์ ์ธ ๊ณต๊ฒฉ ์‚ฌ๋ก€๋Š” AI ์‹œ์Šคํ…œ์˜ ๋ณด์•ˆ ๊ฐ•ํ™” ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

related iamge

์ฒจ๋‹จ AI ์‹œ์Šคํ…œ์˜ ์–ด๋‘์šด ๋ฉด: AgentXploit์ด ๋“œ๋Ÿฌ๋‚ธ ์œ„ํ˜‘

์ตœ๊ทผ ๊ธ‰๊ฒฉํ•œ ๋ฐœ์ „์„ ๊ฑฐ๋“ญํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋Š” ๊ฐ•๋ ฅํ•œ ๊ณ„ํš ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์œผ๋กœ ๋ณต์žกํ•œ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๊ฐ•๋ ฅํ•œ ๊ธฐ๋Šฅ์€ ๋™์‹œ์— ์‹ฌ๊ฐํ•œ ๋ณด์•ˆ ์œ„ํ˜‘์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ง์ ‘์ ์ธ ์‚ฌ์šฉ์ž ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์•„๋‹Œ, ์ปจํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์กฐ์ž‘ํ•˜์—ฌ LLM ์ž์ฒด๋ฅผ ๊ณต๊ฒฉํ•˜๋Š” ๊ต๋ฌ˜ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

Zhun Wang ๋“ฑ ์—ฐ๊ตฌ์ง„์ด ๊ฐœ๋ฐœํ•œ AgentXploit์€ ์ด๋Ÿฌํ•œ ์œ„ํ˜‘์— ๋งž์„œ ์‹ธ์šฐ๋Š” ๊ฐ•๋ ฅํ•œ ๋ฌด๊ธฐ์ž…๋‹ˆ๋‹ค. AgentXploit์€ ๋‹ค์–‘ํ•œ LLM ์—์ด์ „ํŠธ์—์„œ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ์ทจ์•ฝ์„ฑ์„ ์ž๋™์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๊ณ  ์•…์šฉํ•˜๋„๋ก ์„ค๊ณ„๋œ ๋ฒ”์šฉ ๋ธ”๋ž™๋ฐ•์Šค ํผ์ง• ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ๋ชฉ๋ก์„ ๋‚˜์—ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ชฌํ…Œ์นด๋ฅผ๋กœ ํŠธ๋ฆฌ ํƒ์ƒ‰(MCTS) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ๊ฐ’์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์—์ด์ „ํŠธ์˜ ์•ฝ์ ์„ ์ฐพ์•„๋‚ผ ํ™•๋ฅ ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ๋†€๋ž์Šต๋‹ˆ๋‹ค. AgentDojo์™€ VWA-adv๋ผ๋Š” ๋‘ ๊ฐœ์˜ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ AgentXploit์€ o3-mini ๋ฐ GPT-4o ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์— ๋Œ€ํ•ด ๊ฐ๊ฐ 71%์™€ 70%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ๊ณต๊ฒฉ์˜ ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ ๋‘ ๋ฐฐ๋‚˜ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๋”์šฑ ๋†€๋ผ์šด ์ ์€, AgentXploit์ด ์ƒˆ๋กœ์šด ์ž‘์—…๊ณผ ๋‚ด๋ถ€ LLM์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ์ „์ด์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ฐฉ์–ด ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ๊ธ์ •์ ์ธ ๊ฒฐ๊ณผ๊นŒ์ง€ ์ œ์‹œํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€๋ฅผ ๋„˜์–ด, ์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ AgentXploit์„ ์ ์šฉํ•˜์—ฌ ์•…์„ฑ ์‚ฌ์ดํŠธ๋ฅผ ํฌํ•จํ•œ ์ž„์˜์˜ URL๋กœ ์—์ด์ „ํŠธ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์œ ๋„ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ๋ณด์•ˆ ๊ฐ•ํ™”๊ฐ€ ์‹œ๊ธ‰ํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐ•๋ ฅํ•œ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค.

AgentXploit์˜ ๋“ฑ์žฅ์€ AI ์‹œ์Šคํ…œ์˜ ์•ˆ์ „์„ฑ์— ๋Œ€ํ•œ ์‹ฌ๊ฐํ•œ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค. ๊ฐ•๋ ฅํ•œ ๊ธฐ๋Šฅ๊ณผ ๋™์‹œ์— ์กด์žฌํ•˜๋Š” ์ทจ์•ฝ์ ์„ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•  ๊ฒƒ์ธ๊ฐ€? ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์€ ์•ž์œผ๋กœ AI ๊ธฐ์ˆ ์˜ ๋ฐœ์ „๊ณผ ํ•จ๊ป˜ ๋”์šฑ ์ค‘์š”ํ•ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค. AgentXploit์€ ์ด๋Ÿฌํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ํ•ด๋‹ต์ด์ž, ๋”์šฑ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” AI ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] AgentXploit: End-to-End Redteaming of Black-Box AI Agents

Published: ย (Updated: )

Author: Zhun Wang, Vincent Siu, Zhe Ye, Tianneng Shi, Yuzhou Nie, Xuandong Zhao, Chenguang Wang, Wenbo Guo, Dawn Song

http://arxiv.org/abs/2505.05849v1