๐Ÿšจ ์ถฉ๊ฒฉ! LLM์˜ ์น˜๋ช…์  ํ—ˆ์  ๋ฐœ๊ฒฌ: ์ œ์–ด ํ”Œ๋ ˆ์ธ ๊ณต๊ฒฉ์œผ๋กœ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์šฐํšŒ ๊ฐ€๋Šฅ ๐Ÿšจ


๋ณธ ๊ธฐ์‚ฌ๋Š” Shuoming Zhang ๋“ฑ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ์„ ๋ฐ”ํƒ•์œผ๋กœ, LLM์˜ ๊ตฌ์กฐ์  ์ถœ๋ ฅ API๋ฅผ ์•…์šฉํ•˜์—ฌ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์šฐํšŒํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๋ฐฉ์‹์ธ CDA(Constrained Decoding Attack)์— ๋Œ€ํ•ด ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•œ Chain Enum Attack ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ํ•จ๊ป˜, LLM ๋ณด์•ˆ์— ๋Œ€ํ•œ ๊ธฐ์กด ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ „ํ™˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

related iamge

LLM์˜ ์ˆจ๊ฒจ์ง„ ์ทจ์•ฝ์ : ๊ตฌ์กฐ์  ์ถœ๋ ฅ ์ œ์•ฝ ์กฐ๊ฑด์„ ์ด์šฉํ•œ ๊ณต๊ฒฉ

์ตœ๊ทผ ์žฅ์ˆ˜๋ฐ(Shuoming Zhang) ๋“ฑ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ **'Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms'**์€ ์ธ๊ณต์ง€๋Šฅ(AI) ๋ถ„์•ผ์— ํฐ ํŒŒ์žฅ์„ ์ผ์œผํ‚ฌ ๋งŒํ•œ ์ถฉ๊ฒฉ์ ์ธ ๋‚ด์šฉ์„ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ API๋ฅผ ์•…์šฉํ•˜์—ฌ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์šฐํšŒํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๋ฐฉ์‹์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๊ณต๊ฒฉ๊ณผ๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ์ฐจ์›์˜ ์œ„ํ˜‘์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„  ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ: Constrained Decoding Attack (CDA)

์—ฐ๊ตฌ์ง„์€ Constrained Decoding Attack (CDA) ๋ผ ๋ช…๋ช…๋œ ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๊ธฐ๋ฒ•์„ ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. CDA๋Š” ์•…์˜์ ์ธ ์˜๋„๋ฅผ ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ(๋ฐ์ดํ„ฐ ํ”Œ๋ ˆ์ธ)๊ฐ€ ์•„๋‹Œ, ์Šคํ‚ค๋งˆ ์ˆ˜์ค€์˜ ๋ฌธ๋ฒ• ๊ทœ์น™(์ œ์–ด ํ”Œ๋ ˆ์ธ) ์— ์‚ฝ์ž…ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ์‹œ์Šคํ…œ์˜ ๋‚ด๋ถ€ ์ œ์–ด ์žฅ์น˜๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ฒ‰์œผ๋กœ ๋ณด๊ธฐ์—๋Š” ์ •์ƒ์ ์ธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋‚ด๋ถ€์ ์œผ๋กœ๋Š” ์•…์„ฑ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ํšจ๊ณผ๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด์ฃ .

๋†€๋ผ์šด ์„ฑ๊ณต๋ฅ : 96.2%์˜ ์œ„ํ˜‘

์—ฐ๊ตฌ์ง„์€ Chain Enum Attack์ด๋ผ๋Š” CDA์˜ ํ•œ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด GPT-4o, Gemini-2.0-flash๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ LLM์—์„œ **96.2%**์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์˜ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ œ์–ด ํ”Œ๋ ˆ์ธ ๊ณต๊ฒฉ์— ์–ผ๋งˆ๋‚˜ ์ทจ์•ฝํ•œ์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์„ฌ๋œฉํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๋‹จ ํ•œ ๋ฒˆ์˜ ์งˆ๋ฌธ๋งŒ์œผ๋กœ๋„ ์•ˆ์ „ ์‹œ์Šคํ…œ์„ ๋ฌด๋ ฅํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์€ ์‹ฌ๊ฐํ•œ ๋ณด์•ˆ ์œ„ํ˜‘์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.

์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ „ํ™˜์ด ํ•„์š”ํ•˜๋‹ค

์ด๋ฒˆ ์—ฐ๊ตฌ๋Š” LLM์˜ ์•ˆ์ „์„ฑ์— ๋Œ€ํ•œ ๊ธฐ์กด์˜ ์ ‘๊ทผ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์žฌ๊ฒ€ํ† ๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€๋Š” ์ฃผ๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฒ€์ฆ์— ์ดˆ์ ์„ ๋งž์ท„์ง€๋งŒ, ์ด๋ฒˆ ์—ฐ๊ตฌ๋Š” ์ œ์–ด ํ”Œ๋ ˆ์ธ์˜ ์ทจ์•ฝ์„ฑ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. LLM์˜ ์•ˆ์ „์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฐ์ดํ„ฐ ํ”Œ๋ ˆ์ธ๋ฟ ์•„๋‹ˆ๋ผ ์ œ์–ด ํ”Œ๋ ˆ์ธ์— ๋Œ€ํ•œ ๋ณด์•ˆ ๊ฐ•ํ™”๊ฐ€ ํ•„์ˆ˜์ ์ด๋ฉฐ, ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ „ํ™˜์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ LLM ๊ธฐ๋ฐ˜ ์„œ๋น„์Šค์˜ ์•ˆ์ „์„ฑ์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ณด์•ˆ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ๊ณผ ์—ฐ๊ตฌ๊ฐ€ ๋”์šฑ ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋˜์–ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


์ฐธ๊ณ : ๋ณธ ๊ธฐ์‚ฌ๋Š” ์—ฐ๊ตฌ ๋…ผ๋ฌธ์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์œผ๋ฉฐ, ์ผ๋ถ€ ๋‚ด์šฉ์€ ์ดํ•ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด ์žฌ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ „๋ฌธ์„ ์ฐธ์กฐํ•˜์—ฌ ์ž์„ธํ•œ ๋‚ด์šฉ์„ ํ™•์ธํ•˜์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

Published: ย (Updated: )

Author: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui

http://arxiv.org/abs/2503.24191v1