๐จ AI์ ์น๋ช ์ ์ฝ์ : ๋ค์๋ฏธ์ฑ ๊ณต๊ฒฉ์ ๋ฌด๋ฐฉ๋นํ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ค ๐จ
Bofan Gong, Shiyang Lai, Dawn Song ์ฐ๊ตฌํ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๊ฐ ์ ์์ ์ธ ๊ณต๊ฒฉ์ ์ทจ์ฝํ๋ค๋ ์ฌ์ค์ ๋ฐํ์ต๋๋ค. ์๊ท๋ชจ ๋ชจ๋ธ์์ ๋ฐ๊ฒฌ๋ ์ด ๊ตฌ์กฐ๋ ๋๊ท๋ชจ ๋ชจ๋ธ์๋ ์กด์ฌํ๋ฉฐ, AI ์์ ์ฑ์ ๋ํ ์ฌ๊ฐํ ์ฐ๋ ค๋ฅผ ๋ถ๋ฌ์ผ์ผํต๋๋ค. ์ด ์ฐ๊ตฌ๋ AI ๋ชจ๋ธ์ ๋ณด์ ๊ฐํ ๋ฐ ์ ์ฉ ๋ฐฉ์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.

AI์ ์น๋ช ์ ์ฝ์ : ๋ค์๋ฏธ์ฑ ๊ณต๊ฒฉ์ ๋ฌด๋ฐฉ๋นํ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ค
์ต๊ทผ ๊ณต๊ฐ๋ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ด AI ๋ชจ๋ธ์ ์ฌ๊ฐํ ์ทจ์ฝ์ฑ์ ๋๋ฌ๋์ต๋๋ค. Bofan Gong, Shiyang Lai, Dawn Song ์ฐ๊ตฌํ์ ๋ ผ๋ฌธ โProbing the Vulnerability of Large Language Models to Polysemantic Interventionsโ์ ํตํด, ๋ค์๋ฏธ์ฑ(Polysemanticity) ์ด๋ผ๋ ํน์ง์ด ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์์ ์ฑ์ ์ฌ๊ฐํ๊ฒ ์ํํ ์ ์์์ ๋ฐํ์ต๋๋ค.
๋ค์๋ฏธ์ฑ์ด๋ ๋ฌด์์ผ๊น์?
๋ค์๋ฏธ์ฑ์ ๊ฐ๋ณ ๋ด๋ฐ์ด ์๋ก ๊ด๋ จ ์๋ ์ฌ๋ฌ ํน์ง์ ๋์์ ์ธ์ฝ๋ฉํ๋ ํ์์ ๋งํฉ๋๋ค. ์ด๋ ์ ๊ฒฝ๋ง์ ์ผ๋ฐ์ ์ธ ํน์ง์ด์ง๋ง, ๊ทธ๋์ ๋ชจ๋ธ ํด์์ฑ ๋ฐ ์์ ์ฑ ์ธก๋ฉด์์ ์ ๋๋ก ์ดํด๋์ง ์์์ต๋๋ค.
์ฐ๊ตฌํ์ ๋ฌด์์ ๋ฐํ๋์๊น์?
์ฐ๊ตฌํ์ ํฌ์ ์๋ ์ธ์ฝ๋(sparse autoencoders)๋ฅผ ํ์ฉํ์ฌ Pythia-70M๊ณผ GPT-2-Small๊ณผ ๊ฐ์ ์๊ท๋ชจ ๋ชจ๋ธ์ ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ์ต๋๋ค. ๋๋๊ฒ๋, ์ด๋ค์ ๋ ๋ชจ๋ธ ๋ชจ๋ ์ผ๊ด๋ ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ๊ณ ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋์ฑ ์ถฉ๊ฒฉ์ ์ธ ๊ฒ์ ์ด ๊ตฌ์กฐ๊ฐ LLaMA3.1-8B-Instruct ๋ฐ Gemma-2-9B-Instruct์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์๋ ์ํฅ์ ๋ฏธ์น๋ค๋ ์ฌ์ค์ ๋๋ค. ์ด๋ ์๊ท๋ชจ ๋ชจ๋ธ์์ ๋ฐ๊ฒฌ๋ ์ทจ์ฝ์ ์ด ๋๊ท๋ชจ ๋ชจ๋ธ์๋ ๊ทธ๋๋ก ์กด์ฌํ๋ฉฐ, ํ๋กฌํํธ, ํน์ง, ํ ํฐ, ๋ด๋ฐ ์์ค์์ ํ์ ํ๋ ์๋ฐํ ๊ณต๊ฒฉ(targeted, covert interventions) ์ ์ทจ์ฝํจ์ ์๋ฏธํฉ๋๋ค.
์ด ์ฐ๊ตฌ์ ์๋ฏธ๋ ๋ฌด์์ผ๊น์?
์ด ์ฐ๊ตฌ๋ AI ๋ชจ๋ธ์ ์์ ์ฑ์ ๋ํ ์ฌ๊ฐํ ์ฐ๋ ค๋ฅผ ์ ๊ธฐํฉ๋๋ค. ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ ์์ธก ๋ถ๊ฐ๋ฅ์ฑ์ ๋์ด๊ณ , ์ ์์ ์ธ ๊ณต๊ฒฉ์ ๋ํ ์ทจ์ฝ์ฑ์ ์ฆ๊ฐ์ํต๋๋ค. ํนํ, ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๊ฐ ๋ค์ํ ์ํคํ ์ฒ์ ํ์ต ๋ฐฉ์์ ๊ฑธ์ณ ์์ ์ ์ผ๋ก ์กด์ฌํ ์ ์๋ค๋ ์ ์ ์ฌ๊ฐํ ๋ฌธ์ ์ ๋๋ค.
์์ผ๋ก์ ๊ณผ์ ๋ ๋ฌด์์ผ๊น์?
์ด ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ AI ๋ชจ๋ธ์ ๋ณด์ ๊ฐํ ๋ฐ ์ ์ฉ ๋ฐฉ์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ๋ค์๋ฏธ์ฑ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ , ์ด๋ฅผ ์ด์ฉํ ๊ณต๊ฒฉ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์๋ก์ด ๊ธฐ์ ๋ฐ ๋ฐฉ๋ฒ๋ก ๊ฐ๋ฐ์ด ์๊ธํฉ๋๋ค. ๋ํ, ๋์ฑ ์์ ํ๊ณ ์ ๋ขฐํ ์ ์๋ AI ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ธฐ ์ํ ๋ ธ๋ ฅ์ด ํ์ํฉ๋๋ค.
์ฃผ์ ํค์๋: ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ, ๋ค์๋ฏธ์ฑ, AI ์์ ์ฑ, ์ทจ์ฝ์ฑ, ํฌ์ ์๋ ์ธ์ฝ๋, LLM, Polysemanticity, AI Security
Reference
[arxiv] Probing the Vulnerability of Large Language Models to Polysemantic Interventions
Published: ย (Updated: )
Author: Bofan Gong, Shiyang Lai, Dawn Song
http://arxiv.org/abs/2505.11611v1