๐Ÿšจ AI์˜ ์น˜๋ช…์  ์•ฝ์ : ๋‹ค์˜๋ฏธ์„ฑ ๊ณต๊ฒฉ์— ๋ฌด๋ฐฉ๋น„ํ•œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ๋“ค ๐Ÿšจ


Bofan Gong, Shiyang Lai, Dawn Song ์—ฐ๊ตฌํŒ€์€ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๊ฐ€ ์•…์˜์ ์ธ ๊ณต๊ฒฉ์— ์ทจ์•ฝํ•˜๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๋ฐœ๊ฒฌ๋œ ์ด ๊ตฌ์กฐ๋Š” ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—๋„ ์กด์žฌํ•˜๋ฉฐ, AI ์•ˆ์ „์„ฑ์— ๋Œ€ํ•œ ์‹ฌ๊ฐํ•œ ์šฐ๋ ค๋ฅผ ๋ถˆ๋Ÿฌ์ผ์œผํ‚ต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” AI ๋ชจ๋ธ์˜ ๋ณด์•ˆ ๊ฐ•ํ™” ๋ฐ ์•…์šฉ ๋ฐฉ์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

related iamge

AI์˜ ์น˜๋ช…์  ์•ฝ์ : ๋‹ค์˜๋ฏธ์„ฑ ๊ณต๊ฒฉ์— ๋ฌด๋ฐฉ๋น„ํ•œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ๋“ค

์ตœ๊ทผ ๊ณต๊ฐœ๋œ ์—ฐ๊ตฌ ๋…ผ๋ฌธ์ด AI ๋ชจ๋ธ์˜ ์‹ฌ๊ฐํ•œ ์ทจ์•ฝ์„ฑ์„ ๋“œ๋Ÿฌ๋ƒˆ์Šต๋‹ˆ๋‹ค. Bofan Gong, Shiyang Lai, Dawn Song ์—ฐ๊ตฌํŒ€์€ ๋…ผ๋ฌธ โ€œProbing the Vulnerability of Large Language Models to Polysemantic Interventionsโ€์„ ํ†ตํ•ด, ๋‹ค์˜๋ฏธ์„ฑ(Polysemanticity) ์ด๋ผ๋Š” ํŠน์ง•์ด ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์•ˆ์ „์„ฑ์„ ์‹ฌ๊ฐํ•˜๊ฒŒ ์œ„ํ˜‘ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.

๋‹ค์˜๋ฏธ์„ฑ์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ์š”?

๋‹ค์˜๋ฏธ์„ฑ์€ ๊ฐœ๋ณ„ ๋‰ด๋Ÿฐ์ด ์„œ๋กœ ๊ด€๋ จ ์—†๋Š” ์—ฌ๋Ÿฌ ํŠน์ง•์„ ๋™์‹œ์— ์ธ์ฝ”๋”ฉํ•˜๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ฐ˜์ ์ธ ํŠน์ง•์ด์ง€๋งŒ, ๊ทธ๋™์•ˆ ๋ชจ๋ธ ํ•ด์„์„ฑ ๋ฐ ์•ˆ์ „์„ฑ ์ธก๋ฉด์—์„œ ์ œ๋Œ€๋กœ ์ดํ•ด๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌํŒ€์€ ๋ฌด์—‡์„ ๋ฐํ˜€๋ƒˆ์„๊นŒ์š”?

์—ฐ๊ตฌํŒ€์€ ํฌ์†Œ ์ž๋™ ์ธ์ฝ”๋”(sparse autoencoders)๋ฅผ ํ™œ์šฉํ•˜์—ฌ Pythia-70M๊ณผ GPT-2-Small๊ณผ ๊ฐ™์€ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์˜ ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„, ์ด๋“ค์€ ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ ์ผ๊ด€๋œ ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๋ฅผ ๊ณต์œ ํ•˜๊ณ  ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”์šฑ ์ถฉ๊ฒฉ์ ์ธ ๊ฒƒ์€ ์ด ๊ตฌ์กฐ๊ฐ€ LLaMA3.1-8B-Instruct ๋ฐ Gemma-2-9B-Instruct์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๋ฐœ๊ฒฌ๋œ ์ทจ์•ฝ์ ์ด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—๋„ ๊ทธ๋Œ€๋กœ ์กด์žฌํ•˜๋ฉฐ, ํ”„๋กฌํ”„ํŠธ, ํŠน์ง•, ํ† ํฐ, ๋‰ด๋Ÿฐ ์ˆ˜์ค€์—์„œ ํ‘œ์ ํ™”๋œ ์€๋ฐ€ํ•œ ๊ณต๊ฒฉ(targeted, covert interventions) ์— ์ทจ์•ฝํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

์ด ์—ฐ๊ตฌ๋Š” AI ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ์— ๋Œ€ํ•œ ์‹ฌ๊ฐํ•œ ์šฐ๋ ค๋ฅผ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๊ณ , ์•…์˜์ ์ธ ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ์ทจ์•ฝ์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๊ฐ€ ๋‹ค์–‘ํ•œ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ๋ฐฉ์‹์— ๊ฑธ์ณ ์•ˆ์ •์ ์œผ๋กœ ์กด์žฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์€ ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

์•ž์œผ๋กœ์˜ ๊ณผ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

์ด ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” AI ๋ชจ๋ธ์˜ ๋ณด์•ˆ ๊ฐ•ํ™” ๋ฐ ์•…์šฉ ๋ฐฉ์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์˜๋ฏธ์„ฑ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ , ์ด๋ฅผ ์ด์šฉํ•œ ๊ณต๊ฒฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ  ๋ฐ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ์ด ์‹œ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋”์šฑ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” AI ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•œ ๋…ธ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.


์ฃผ์š” ํ‚ค์›Œ๋“œ: ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ, ๋‹ค์˜๋ฏธ์„ฑ, AI ์•ˆ์ „์„ฑ, ์ทจ์•ฝ์„ฑ, ํฌ์†Œ ์ž๋™ ์ธ์ฝ”๋”, LLM, Polysemanticity, AI Security


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Probing the Vulnerability of Large Language Models to Polysemantic Interventions

Published: ย (Updated: )

Author: Bofan Gong, Shiyang Lai, Dawn Song

http://arxiv.org/abs/2505.11611v1