๐จ ์ค๋์ค ํ์ฅ ๊ณต๊ฒฉ์ ๋ํ ๊ฒฝ๊ณ : AI ์์ฑ ๋ชจ๋ธ์ ์ทจ์ฝ์ฑ ๋ฒค์น๋งํฌ AJailBench ๋ฑ์ฅ
์ค๊ตญ ์ฐ๊ตฌํ์ด ๊ฐ๋ฐํ AJailBench๋ ๋๊ท๋ชจ ์ค๋์ค ์ธ์ด ๋ชจ๋ธ(LAM)์ ํ์ฅ ์ทจ์ฝ์ฑ์ ํ๊ฐํ๋ ์ต์ด์ ๋ฒค์น๋งํฌ์ ๋๋ค. ํ ์คํธ ๊ธฐ๋ฐ ๊ณต๊ฒฉ์ ์ค๋์ค๋ก ๋ณํํ๊ณ ์ค๋์ค ์๊ณก์ ํตํด ๊ณต๊ฒฉ ํจ๊ณผ๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ, ์ ๋์ ์ธ LAM์ ์ทจ์ฝ์ฑ์ ๋ฐํ๋์ต๋๋ค. ์ด๋ ๋์ฑ ๊ฐ๋ ฅํ๊ณ ์๋ฏธ๋ก ์ ์ผ๋ก ์ธ์งํ๋ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ํ์์ฑ์ ์์ฌํฉ๋๋ค.

์ฒจ๋จ AI ์์ฑ ๋ชจ๋ธ์ ์ด๋์ด ์ด๋ฉด: AJailBench๊ฐ ๋ฐํ๋ ์ํ์ฑ
์ต๊ทผ ๊ธ์๋๋ก ๋ฐ์ ํ๋ ๋๊ท๋ชจ ์ค๋์ค ์ธ์ด ๋ชจ๋ธ(LAM)์ ๋๋ผ์ด ์ ์ฌ๋ ฅ์ ์ง๋๊ณ ์์ง๋ง, ๋์์ ์ฌ๊ฐํ ์ํ์ฑ๋ ๋ดํฌํ๊ณ ์์ต๋๋ค. ์ ์์ ์ธ ์ฌ์ฉ์๊ฐ LAM์ ์ ์ฉํ์ฌ ์ ํดํ๊ฑฐ๋ ๋น์ค๋ฆฌ์ ์ธ ์ฝํ ์ธ ๋ฅผ ์์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ง๊ธ๊น์ง LAM์ ์์ ์ฑ, ํนํ 'ํ์ฅ(Jailbreak)' ๊ณต๊ฒฉ์ ๋ํ ์ฒด๊ณ์ ์ธ ํ๊ฐ๋ ๋ถ์กฑํ์ต๋๋ค. ๋ง์ ์๊ฐ์ , ์๋ฏธ๋ก ์ ํน์ฑ ๋๋ฌธ์ ์ด๋ฌํ ๊ณต๊ฒฉ์ ํ๊ฐํ๊ธฐ๊ฐ ์ฝ์ง ์์๋ ๊ฒ์ด์ฃ .
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ค๊ตญ ์ฐ๊ตฌํ(Zirui Song ์ธ 11๋ช )์ด AJailBench๋ผ๋ ํ๊ธฐ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. AJailBench๋ LAM์ ํ์ฅ ์ทจ์ฝ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ํน๋ณํ ์ค๊ณ๋ ์ต์ด์ ๋ฒค์น๋งํฌ์ ๋๋ค.
10๊ฐ์ง ์ ํ์ ํ์ฅ ๊ณต๊ฒฉ ๋ฐ์ดํฐ์ : AJailBench-Base
์ฐ๊ตฌํ์ ๋จผ์ AJailBench-Base๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ 10๊ฐ์ง ์ ์ฑ ์๋ฐ ์ ํ์ ๊ฑธ์ณ 1,495๊ฐ์ ์ ๋์ ์ธ ์ค๋์ค ํ๋กฌํํธ๋ฅผ ํฌํจํ๋ฉฐ, ์ค์ ์ ๊ฐ์ ํ ์คํธ ์์ฑ ๋ณํ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ํ ์คํธ ๊ธฐ๋ฐ ํ์ฅ ๊ณต๊ฒฉ์ ์ค๋์ค๋ก ๋ณํํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ์ ํ์ ํ์ฅ ๊ณต๊ฒฉ์ ๋ํ LAM์ ์์ ์ฑ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ ์ ์์ต๋๋ค.
์ค์ ๊ณต๊ฒฉ ์ํฉ์ ๋ชจ๋ฐฉํ ๋์ ์ ๋์ ๋ณํ: AJailBench-APT
ํ์ง๋ง AJailBench-Base๋ง์ผ๋ก๋ ์ค์ ๊ณต๊ฒฉ ์ํฉ์ ์ถฉ๋ถํ ๋ฐ์ํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋์ ์ฐ๊ตฌํ์ ์ค๋์ค ์๊ณก ๋๊ตฌ(APT) ๋ฅผ ๊ฐ๋ฐํ์ฌ, ์๊ฐ, ์ฃผํ์, ์งํญ ์์ญ์์ ํ์ ํ๋ ์๊ณก์ ์ ์ฉํ๋ ๋์ ์ ๋์ ๋ณํ์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์๋ณธ ํ์ฅ ์๋๋ฅผ ์ ์งํ๋ฉด์ ๋ฒ ์ด์ง์ ์ต์ ํ๋ฅผ ํตํด ๋ฏธ๋ฌํ์ง๋ง ๋งค์ฐ ํจ๊ณผ์ ์ธ ์๊ณก์ ์ฐพ์๋์ต๋๋ค. ์ด๋ฅผ ํตํด AJailBench-APT๋ผ๋ ํ์ฅ๋ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค.
๋๋ผ์ด ๊ฒฐ๊ณผ: ์ต์ฒจ๋จ LAM๋ ์์ ํ์ง ์๋ค!
์ฌ๋ฌ ์ต์ฒจ๋จ LAM์ AJailBench๋ก ํ๊ฐํ ๊ฒฐ๊ณผ, ์ด๋ค ๋ชจ๋ธ๋ ๋ชจ๋ ๊ณต๊ฒฉ์ ๋ํด ์ผ๊ด๋ ๊ฐ๋ ฅํจ์ ๋ณด์ด์ง ๋ชปํ์ต๋๋ค. ๋์ฑ ๋๋ผ์ด ๊ฒ์, ์๋ฏธ๊ฐ ์ ์ง๋๋ ์์ ์๊ณก๋ง์ผ๋ก๋ ์ฃผ์ LAM์ ์์ ์ฑ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋ ์ ์๋ค๋ ์ฌ์ค์ ๋๋ค. ์ด๋ ๋์ฑ ๊ฐ๋ ฅํ๊ณ ์๋ฏธ๋ก ์ ์ผ๋ก ์ธ์งํ๋ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ๊ฐ๋ฐ์ด ์๊ธํจ์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก : AI ์์ ์ฑ ์ฐ๊ตฌ์ ์๋ก์ด ์ฅ์ ์ด๋ค
AJailBench๋ AI ์์ฑ ๋ชจ๋ธ์ ์์ ์ฑ ๋ฌธ์ ๋ฅผ ๋ช ํํ ๋๋ฌ๋ด๋ ์ค์ํ ์ฐ๊ตฌ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋จ์ํ ์ทจ์ฝ์ฑ์ ์ง์ ํ๋ ๋ฐ ๊ทธ์น์ง ์๊ณ , ๋ ์์ ํ๊ณ ์ ๋ขฐํ ์ ์๋ AI ์์คํ ๊ฐ๋ฐ์ ์ํ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์์ผ๋ก๋ ์ด๋ฌํ ์ฐ๊ตฌ๋ฅผ ํตํด AI ๊ธฐ์ ์ ๋ฐ์ ๊ณผ ํจ๊ป ์์ ์ฑ ๋ฌธ์ ์ ๋ํ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ์ค์ํ๋ฉฐ, AJailBench๋ ๊ทธ๋ฌํ ๋ ธ๋ ฅ์ ๊ท์คํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
Reference
[arxiv] Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
Published: ย (Updated: )
Author: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
http://arxiv.org/abs/2505.15406v1