๐จ ์ถฉ๊ฒฉ! LLM์ ์น๋ช ์ ํ์ ๋ฐ๊ฒฌ: ์ ์ด ํ๋ ์ธ ๊ณต๊ฒฉ์ผ๋ก ์์ ๋ฉ์ปค๋์ฆ ์ฐํ ๊ฐ๋ฅ ๐จ
๋ณธ ๊ธฐ์ฌ๋ Shuoming Zhang ๋ฑ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ์ ๋ฐํ์ผ๋ก, LLM์ ๊ตฌ์กฐ์ ์ถ๋ ฅ API๋ฅผ ์ ์ฉํ์ฌ ์์ ๋ฉ์ปค๋์ฆ์ ์ฐํํ๋ ์๋ก์ด ๊ณต๊ฒฉ ๋ฐฉ์์ธ CDA(Constrained Decoding Attack)์ ๋ํด ๋ค๋ฃน๋๋ค. ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ Chain Enum Attack ์คํ ๊ฒฐ๊ณผ์ ํจ๊ป, LLM ๋ณด์์ ๋ํ ๊ธฐ์กด ํจ๋ฌ๋ค์์ ์ ํ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.

LLM์ ์จ๊ฒจ์ง ์ทจ์ฝ์ : ๊ตฌ์กฐ์ ์ถ๋ ฅ ์ ์ฝ ์กฐ๊ฑด์ ์ด์ฉํ ๊ณต๊ฒฉ
์ต๊ทผ ์ฅ์๋ฐ(Shuoming Zhang) ๋ฑ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ **'Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms'**์ ์ธ๊ณต์ง๋ฅ(AI) ๋ถ์ผ์ ํฐ ํ์ฅ์ ์ผ์ผํฌ ๋งํ ์ถฉ๊ฒฉ์ ์ธ ๋ด์ฉ์ ๋ด๊ณ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ API๋ฅผ ์ ์ฉํ์ฌ ์์ ๋ฉ์ปค๋์ฆ์ ์ฐํํ๋ ์๋ก์ด ๊ณต๊ฒฉ ๋ฐฉ์์ ๋ฐํ๋์ต๋๋ค. ์ด๋ ๊ธฐ์กด์ ์ ๋ ฅ ํ๋กฌํํธ์ ์ด์ ์ ๋ง์ถ ๊ณต๊ฒฉ๊ณผ๋ ์ ํ ๋ค๋ฅธ ์ฐจ์์ ์ํ์ ๋๋ค.
๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋์ด์ ์๋ก์ด ๊ณต๊ฒฉ: Constrained Decoding Attack (CDA)
์ฐ๊ตฌ์ง์ Constrained Decoding Attack (CDA) ๋ผ ๋ช ๋ช ๋ ์๋ก์ด ๊ณต๊ฒฉ ๊ธฐ๋ฒ์ ์๊ฐํ์ต๋๋ค. CDA๋ ์ ์์ ์ธ ์๋๋ฅผ ์ ๋ ฅ ํ๋กฌํํธ(๋ฐ์ดํฐ ํ๋ ์ธ)๊ฐ ์๋, ์คํค๋ง ์์ค์ ๋ฌธ๋ฒ ๊ท์น(์ ์ด ํ๋ ์ธ) ์ ์ฝ์ ํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค. ์ด๋ ๋ง์น ์์คํ ์ ๋ด๋ถ ์ ์ด ์ฅ์น๋ฅผ ์กฐ์ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๊ฒ์ผ๋ก ๋ณด๊ธฐ์๋ ์ ์์ ์ธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋ด๋ถ์ ์ผ๋ก๋ ์ ์ฑ ์ฝ๋๋ฅผ ์คํํ๋ ๊ฒ๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด์ฃ .
๋๋ผ์ด ์ฑ๊ณต๋ฅ : 96.2%์ ์ํ
์ฐ๊ตฌ์ง์ Chain Enum Attack์ด๋ผ๋ CDA์ ํ ์์๋ฅผ ํตํด GPT-4o, Gemini-2.0-flash๋ฅผ ํฌํจํ ์ฌ๋ฌ LLM์์ **96.2%**์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ LLM์ ์์ ๋ฉ์ปค๋์ฆ์ด ์ ์ด ํ๋ ์ธ ๊ณต๊ฒฉ์ ์ผ๋ง๋ ์ทจ์ฝํ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ฉํ ๊ฒฐ๊ณผ์ ๋๋ค. ๋จ ํ ๋ฒ์ ์ง๋ฌธ๋ง์ผ๋ก๋ ์์ ์์คํ ์ ๋ฌด๋ ฅํํ ์ ์๋ค๋ ์ฌ์ค์ ์ฌ๊ฐํ ๋ณด์ ์ํ์ผ๋ก ์ด์ด์ง๋๋ค.
์๋ก์ด ํจ๋ฌ๋ค์์ ์ ํ์ด ํ์ํ๋ค
์ด๋ฒ ์ฐ๊ตฌ๋ LLM์ ์์ ์ฑ์ ๋ํ ๊ธฐ์กด์ ์ ๊ทผ ๋ฐฉ์์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ฌ๊ฒํ ๋ฅผ ์๊ตฌํฉ๋๋ค. ์ง๊ธ๊น์ง๋ ์ฃผ๋ก ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํ ๊ฒ์ฆ์ ์ด์ ์ ๋ง์ท์ง๋ง, ์ด๋ฒ ์ฐ๊ตฌ๋ ์ ์ด ํ๋ ์ธ์ ์ทจ์ฝ์ฑ์ ๋ช ํํ ๋ณด์ฌ์ฃผ์์ต๋๋ค. LLM์ ์์ ์ ํ๋ณดํ๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ ํ๋ ์ธ๋ฟ ์๋๋ผ ์ ์ด ํ๋ ์ธ์ ๋ํ ๋ณด์ ๊ฐํ๊ฐ ํ์์ ์ด๋ฉฐ, ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ํ์ด ํ์ํจ์ ์์ฌํฉ๋๋ค. ์์ผ๋ก LLM ๊ธฐ๋ฐ ์๋น์ค์ ์์ ์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ์๋ก์ด ๋ณด์ ๊ธฐ์ ๊ฐ๋ฐ๊ณผ ์ฐ๊ตฌ๊ฐ ๋์ฑ ํ๋ฐํ ์งํ๋์ด์ผ ํ ๊ฒ์ ๋๋ค.
์ฐธ๊ณ : ๋ณธ ๊ธฐ์ฌ๋ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์์ฑ๋์์ผ๋ฉฐ, ์ผ๋ถ ๋ด์ฉ์ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ์ฌ๊ตฌ์ฑ๋์์ต๋๋ค. ๋ ผ๋ฌธ ์ ๋ฌธ์ ์ฐธ์กฐํ์ฌ ์์ธํ ๋ด์ฉ์ ํ์ธํ์๊ธฐ ๋ฐ๋๋๋ค.
Reference
[arxiv] Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms
Published: ย (Updated: )
Author: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui
http://arxiv.org/abs/2503.24191v1