๐จ ์ถฉ๊ฒฉ! AI๋ ๋น์ ์ ์ด๋ฆ์ ์ ๋ง ์์๋ณผ๊น์? ๐จ
๋ณธ ๊ธฐ์ฌ๋ LLM์ด ๊ฐ์ธ์ ๋ณด, ํนํ ์ด๋ฆ์ ์ธ์ํ๋ ๋ฐ ์์ด์ ํ๊ณ๋ฅผ ์ง๋๋ค๋ ์ต์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ๋ชจํธํ ์ด๋ฆ์ ํฌํจํ AMBENCH ๋ฐ์ดํฐ์ ์ ํตํด LLM์ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ , ๊ทธ ์ทจ์ฝ์ฑ์ ๋ฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด LLM ๊ธฐ๋ฐ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์์คํ ์ ์ํ์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ๋์ฑ ์ฒด๊ณ์ ์ธ ์ฐ๊ตฌ์ ๋ค๊ฐ์ ์ธ ์ ๊ทผ์ ํ์์ฑ์ ์ ๊ธฐํฉ๋๋ค.

AI์ ์ด๋ฆ ๋๋ ๋ง: ๊ณผ์ฐ ๊ฐ์ธ์ ๋ณด๋ฅผ ์์ ํ๊ฒ ์งํฌ ์ ์์๊น?
์ต๊ทผ ๋ช ๋ ๊ฐ ๊ธ์๋๋ก ๋ฐ์ ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ํ์ ์ ์ธ ๋๊ตฌ๋ก ์ฌ๊ฒจ์ ธ ์์ต๋๋ค. ํ์ง๋ง, Dzung Pham ๋ฑ ์ฐ๊ตฌ์ง์ ์๋ก์ด ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ฏฟ์์ ํฐ ์๋ฌธ์ ์ ๊ธฐํฉ๋๋ค. ๊ทธ๋ค์ ๋ ผ๋ฌธ "Can Large Language Models Really Recognize Your Name?" ์์๋ LLM์ด ์๊ฐ๋ณด๋ค ๊ฐ์ธ ์๋ณ ์ ๋ณด(PII), ํนํ ์ด๋ฆ์ ์ ๋๋ก ์ธ์ํ์ง ๋ชปํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋์ต๋๋ค.
์งง์ ๋ฌธ์ฅ ์ ์จ๊ฒจ์ง ํจ์ : ๋ชจํธํ ์ด๋ฆ์ ์ํ
์ฐ๊ตฌ์ง์ LLM์ด ์งง์ ๋ฌธ์ฅ์์๋ ๋ชจํธํ ๋งฅ๋ฝ์ผ๋ก ์ธํด ์ด๋ฆ์ ์ค์ธ์ํ๊ฑฐ๋ ์๋ชป ์ฒ๋ฆฌํ๋ ํ์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฆ์ ์ ๊ท์ฑ ํธํฅ ํ์์ ์ด์ฉํ์ฌ, ์ผ์์ ์ธ ์ด๋ฆ๊ณผ ๋น์ทํ์ง๋ง, LLM์ด ์ฝ๊ฒ ์ธ์ํ์ง ๋ชปํ๋ ๋ชจํธํ ์ด๋ฆ์ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ AMBENCH ๋ผ๊ณ ๋ช ๋ช ๋์์ผ๋ฉฐ, LLM ๊ธฐ๋ฐ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์์คํ ์ ์ฑ๋ฅ ํ๊ฐ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๋๋ผ์ด ์คํ ๊ฒฐ๊ณผ: 20~40%์ ์ธ์๋ฅ ๊ฐ์!
์คํ ๊ฒฐ๊ณผ๋ ์ถฉ๊ฒฉ์ ์ ๋๋ค. AMBENCH๋ฅผ ์ฌ์ฉํ ์คํ์์, ๋ชจํธํ ์ด๋ฆ์ ์ธ์๋ฅ ์ ์ผ๋ฐ์ ์ธ ์ด๋ฆ์ ๋นํด ๋ฌด๋ ค 20~40%๋ ๊ฐ์ํ์ต๋๋ค. ๋์ฑ ์ฌ๊ฐํ ๊ฒ์, ๋ฌดํดํ ํ๋กฌํํธ ์ฃผ์ ์ด ์์ ๊ฒฝ์ฐ, ๋ชจํธํ ์ด๋ฆ์ด ๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฅผ ์ํ ์์ฝ ๊ณผ์ ์์ ๋ฌด์๋ ํ๋ฅ ์ด 4๋ฐฐ๋ ๋์์ง๋ค๋ ์ ์ ๋๋ค. ์ด๋ LLM์ ๋จ๋ ์ผ๋ก ๊ฐ์ธ์ ๋ณด๋ณดํธ์ ์์กดํ๋ ๊ฒ์ด ์ผ๋ง๋ ์ํํ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ฏธ๋๋ฅผ ์ํ ๊ฒฝ๊ณ : LLM ๊ธฐ๋ฐ ๊ฐ์ธ์ ๋ณด๋ณดํธ์ ํ๊ณ์ ์๋ก์ด ๋ฐฉํฅ
์ด ์ฐ๊ตฌ๋ LLM ๊ธฐ๋ฐ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์์คํ ์ ์ทจ์ฝ์ฑ์ ๋ช ํํ ๋๋ฌ๋์ต๋๋ค. ์ฐ๊ตฌ์ง์ LLM์ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์คํจ ๋ชจ๋์ ๋ํ ๋ณด๋ค ์ฒด๊ณ์ ์ธ ์ฐ๊ตฌ์, LLM์๋ง ์์กดํ์ง ์๋ ๋ค๊ฐ์ ์ธ ๊ฐ์ธ์ ๋ณด๋ณดํธ ์ ๋ต์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. AI ์๋์ ์์ ํ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ฅผ ์ํด์๋, ๊ธฐ์ ์ ํ๊ณ๋ฅผ ๋ช ํํ ์ธ์งํ๊ณ , ๋์ฑ ๊ฐ๋ ฅํ๊ณ ์์ ํ ๋ณดํธ ์์คํ ๊ตฌ์ถ์ ๋ํ ์ง์์ ์ธ ๋ ธ๋ ฅ์ด ํ์ํฉ๋๋ค. ์ด๋ ๋จ์ํ ๊ธฐ์ ์ ์ธ ๋ฌธ์ ๋ฅผ ๋์ด, ์ค๋ฆฌ์ , ์ฌํ์ ์ฑ ์์ ๋ฌธ์ ์ด๊ธฐ๋ ํฉ๋๋ค.
Reference
[arxiv] Can Large Language Models Really Recognize Your Name?
Published: ย (Updated: )
Author: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr
http://arxiv.org/abs/2505.14549v1