๐ฅ ์ ์์ ์ธ AI ๋ฏธ์ธ์กฐ์ , ์ด์ '๋ณด์ ์ค๋ฆฝํ'๋ก ๋ง์ ์ธ์ด๋ค!
๋ณธ ๊ธฐ์ฌ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์์ AI ๋ฏธ์ธ์กฐ์ ๊ณต๊ฒฉ์ ์ํ์ฑ๊ณผ, ์ด์ ๋ํ ํจ๊ณผ์ ์ธ ๋ฐฉ์ด ์ ๋ต์ธ '๋ณด์ ์ค๋ฆฝํ' ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค. ๋จ 50๋จ๊ณ์ ๊ณต๊ฒฉ์ผ๋ก ์์ ์ฅ์น๋ฅผ ๋ฌด๋ ฅํ์ํฌ ์ ์๋ค๋ ์ฌ์ค๊ณผ ๊ธฐ์กด ๋ฐฉ์ด ๊ธฐ๋ฒ์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, '๋ณด์ ์ค๋ฆฝํ'๊ฐ ์คํ์์ค ๋ชจ๋ธ์ ๋ณด์ ๊ฐํ์ ๊ธฐ์ฌํ ์ ์์์ ๊ฐ์กฐํฉ๋๋ค.

์ต๊ทผ AI ๋ถ์ผ์ ๊ธ์ํ ๋ฐ์ ๊ณผ ํจ๊ป, ๊ฐํํ์ต(Reinforcement Learning, RL)์ ์ด์ฉํ ์ ์์ ์ธ ๋ํ์ธ์ด๋ชจ๋ธ(LLM) ๋ฏธ์ธ์กฐ์ ๊ณต๊ฒฉ์ด ์ฌ๊ฐํ ์ํ์ผ๋ก ๋ ์ค๋ฅด๊ณ ์์ต๋๋ค. Cao Wenjun์ ์ฐ๊ตฌ ๋ ผ๋ฌธ, "Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization"์ ์ด๋ฌํ ์ํ์ ๋ํ ๊ฒฝ์ข ์ ์ธ๋ฆฌ๋ฉฐ, ํจ๊ณผ์ ์ธ ๋ฐฉ์ด ์ ๋ต์ ์ ์ํฉ๋๋ค.
50๋จ๊ณ์ ๊ณต๊ฒฉ, ์์ ์ฅ์น ๋ฌด๋ ฅํ
์ฐ๊ตฌ์ง์ ๋๋๊ฒ๋ ๋จ 50๋จ๊ณ์ ์ ์์ ์ธ RL ๋ฏธ์ธ์กฐ์ ๋ง์ผ๋ก๋ ๊ธฐ์กด์ ์์ ์ฅ์น๋ฅผ ์ฐํํ ์ ์์์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ์ต๋๋ค. ์ต์ํ์ ์ ๋์ ํ๋กฌํํธ๋ง์ผ๋ก๋ ์ ํด์ฑ ์ ์๊ฐ 0-2์์ 7-9๋ก ๊ธ์ฆํ๋ ๊ฒ์ ํ์ธํ์ฃ . ํนํ ๋งค๊ฐ๋ณ์(parameter)์ ๋ํ ์ ๊ทผ ๊ถํ์ด ์๋ ์คํ์์ค ๋ชจ๋ธ์ด ์ด๋ฌํ ๊ณต๊ฒฉ์ ์ทจ์ฝํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
๊ธฐ์กด ๋ฐฉ์ด๊ธฐ๋ฒ์ ํ๊ณ
๊ธฐ์กด์ ์ง๋ํ์ต ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ๋ฐฉ์ด ๊ธฐ๋ฒ๋ค์ RL์ ๋์ ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ์๋ ํจ๊ณผ๊ฐ ์๋ค๋ ์ฌ์ค ๋ํ ๋ฐํ์ก์ต๋๋ค. ์ด๋ ๊ธฐ์กด ๋ฐฉ์ด ์์คํ ์ ํ๊ณ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ์ ๋๋ค. ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ณต๊ฒฉ์ ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ์กฐ์ํ๋ ๊ฒ ์ด์์, ํจ์ฌ ๋ ๋์ ์ธ ์ํ์ ์ ๊ธฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํ์ ์ ์ธ ํด๊ฒฐ์ฑ : ๋ณด์ ์ค๋ฆฝํ (Reward Neutralization)
์ด๋ฌํ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก ์ฐ๊ตฌ์ง์ "๋ณด์ ์ค๋ฆฝํ (Reward Neutralization)"๋ผ๋ ์๋ก์ด ๋ฐฉ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ ์ ์์ ์ธ ๋ณด์ ์ ํธ๋ฅผ ๋ฌด๋ ฅํ์ํค๋ ๊ฐ๊ฒฐํ ๊ฑฐ๋ถ ํจํด์ ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค. ๋ชจ๋ธ์ ๊ณต๊ฒฉ์๊ฐ ์ ์ฉํ ์ ์๋ ์ต์ํ์ ์ ๋ณด๋ง ๋ด์ ๊ฑฐ๋ถ ์๋ต์ ์์ฑํ๋๋ก ํ์ต๋๋ฉฐ, ์ ํดํ ์ถ๋ ฅ์ผ๋ก์ ์ต์ ํ ์๋๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์คํ์ํต๋๋ค.
์คํ ๊ฒฐ๊ณผ, ๋ณด์ ์ค๋ฆฝํ ๊ธฐ๋ฒ์ ์ ์ฉํ ๋ชจ๋ธ์ 200๋จ๊ณ์ ๊ณต๊ฒฉ ์ดํ์๋ ์ ํด์ฑ ์ ์๊ฐ 2 ์ดํ๋ก ์ ์ง๋์์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ด๋ ์ ์ ๋ ์ ๊ทผ์ฑ์ด ๋์์ง๋ RL ๊ณต๊ฒฉ์ ๋ํ ๊ฐ๋ ฅํ ๋ฐฉ์ด๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ ์ต์ด์ ๊ตฌ์ฒด์ ์ธ ์ฆ๊ฑฐ์ ๋๋ค. ์คํ์์ค ๋ชจ๋ธ์ ์ค์ํ ๋ณด์ ์ทจ์ฝ์ ์ ํด๊ฒฐํ๋ ์ค์ํ ์ฑ๊ณผ์ ๋๋ค.
๊ฒฐ๋ก : AI ๋ณด์์ ์๋ก์ด ์งํ
Cao Wenjun์ ์ฐ๊ตฌ๋ RL ๊ธฐ๋ฐ์ ์ ์์ AI ๊ณต๊ฒฉ์ ์ฌ๊ฐ์ฑ์ ์ผ๊นจ์ฐ๊ณ , ๋์์ ํจ๊ณผ์ ์ธ ๋ฐฉ์ด ์ ๋ต์ ์ ์ํจ์ผ๋ก์จ AI ๋ณด์ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ์ต๋๋ค. '๋ณด์ ์ค๋ฆฝํ'๋ ์คํ์์ค ๋ชจ๋ธ์ ์์ ์ฑ์ ๊ฐํํ๊ณ , AI ๊ธฐ์ ์ ์์ ํ๊ณ ์ค๋ฆฌ์ ์ธ ๋ฐ์ ์ ์ํ ์ค์ํ ๋ฐ๊ฑธ์์ด ๋ ๊ฒ์ ๋๋ค. ์์ผ๋ก ๋์ฑ ๋ฐ์ ๋ ์ฐ๊ตฌ๋ฅผ ํตํด ๋ณด๋ค ๊ฐ๋ ฅํ๊ณ ์์ ํ AI ์์คํ ์ ๊ตฌ์ถํด์ผ ํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization
Published: ย (Updated: )
Author: Wenjun Cao
http://arxiv.org/abs/2505.04578v1