๐จ AI์ ๊ฐ์ธ์ ๋ณด ์๊ธฐ ์ํ, PANORAMA๊ฐ ๋ฐํ๋ค! ๐จ
๋ณธ ๊ธฐ์ฌ๋ LLM์ ๊ฐ์ธ์ ๋ณด ์๊ธฐ ์ํ์ ๋ค๋ฃจ๋ฉฐ, ์ด ๋ฌธ์ ํด๊ฒฐ์ ์ํด ๊ฐ๋ฐ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ PANORAMA์ ๊ทธ ์ ์ฉ์ฑ์ ์๊ฐํฉ๋๋ค. PANORAMA๋ ์ค์ ์จ๋ผ์ธ ํ๊ฒฝ์ ๋ฐ์ํ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ๋ ๋ฐ์ดํฐ ๋ฐ๋ณต ํ์์ ์ฝํ ์ธ ์ ํ์ ๋ฐ๋ฅธ PII ์๊ธฐ์จ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด๋ AI์ ์ค๋ฆฌ์ ๋ฐ์ ์ ๊ธฐ์ฌํ ์ค์ํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋๋ค.

AI์ ๊ทธ๋ฆผ์: ๊ฐ์ธ์ ๋ณด ์๊ธฐ์ ์ํ๊ณผ PANORAMA์ ๋ฑ์ฅ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฐ์ ์ ์ธ๋ฅ์๊ฒ ๋๋ผ์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ฃผ์์ง๋ง, ๋์์ ๊ฐ์ธ์ ๋ณด ์ ์ถ์ด๋ผ๋ ์ฌ๊ฐํ ๊ทธ๋ฆผ์๋ฅผ ๋๋ฆฌ์ฐ๊ณ ์์ต๋๋ค. LLM์ด ํ์ต ๊ณผ์ ์์ ๋ฏผ๊ฐํ ๊ฐ์ธ์ ๋ณด(PII)๋ฅผ ๊ธฐ์ตํ๊ณ , ์ด๋ฅผ ์์์น ๋ชปํ ๋ฐฉ์์ผ๋ก ๋ ธ์ถํ ์ํ์ด ์ฆ๊ฐํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
Sriram Selvam๊ณผ Anneswa Ghosh ์ฐ๊ตฌํ์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, PANORAMA๋ผ๋ ํ์ ์ ์ธ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๊ฐ๋ฐํ์ต๋๋ค. PANORAMA (Profile-based Assemblage for Naturalistic Online Representation and Attribute Memorization Analysis) ๋ ์จ๋ผ์ธ ํ๊ฒฝ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํ๋ PII์ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ์ ๋ถํฌ, ๋ค์์ฑ, ๋งฅ๋ฝ์ ์ ๊ตํ๊ฒ ๋ชจ๋ฐฉํ์ฌ ์์ฑ๋ 384,789๊ฐ์ ์ํ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋๋ค. 9,674๊ฐ์ ํฉ์ฑ ํ๋กํ์ ๊ธฐ๋ฐ์ผ๋ก, ๊ต์ก ์์ค, ๊ฑด๊ฐ ์ํ, ์ฌ์ ์ํ ๋ฑ ๋ค์ํ ์ค์ ์ธ๊ตฌ ํต๊ณํ์ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ฌ ๋ด๋ถ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ๋ค์ค ์์ฑ ์ธ๊ฐ ํ๋กํ์ ๊ตฌ์ถํ๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
์ฐ๊ตฌํ์ ์ ๋ก์ท ํ๋กฌํํ ๊ณผ OpenAI์ o3-mini ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์ํค ์คํ์ผ ๊ธฐ์ฌ, ์์ ๋ฏธ๋์ด ๊ฒ์๋ฌผ, ํฌ๋ผ ํ ๋ก , ์จ๋ผ์ธ ๋ฆฌ๋ทฐ, ๋๊ธ, ๋ง์ผํ๋ ์ด์ค ๋ชฉ๋ก ๋ฑ ๋ค์ํ ์ฝํ ์ธ ์ ํ์ ์์ฑํ์ต๋๋ค. ๊ฐ ์ฝํ ์ธ ์๋ ํ์ค์ ์ด๊ณ ๋ฌธ๋งฅ์ ์ผ๋ก ์ ์ ํ PII ๋ฐ ๊ธฐํ ๋ฏผ๊ฐํ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
PANORAMA์ ์ค์ฉ์ฑ ๊ฒ์ฆ์ ์ํด, ์ฐ๊ตฌํ์ Mistral-7B ๋ชจ๋ธ์ 1x, 5x, 10x, 25x์ ๋ฐ์ดํฐ ๋ณต์ ์จ๋ก ๋ฏธ์ธ ์กฐ์ ํ๊ณ PII ์๊ธฐ์จ์ ์ธก์ ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ฐ์ดํฐ ๋ฐ๋ณต ํ์๊ฐ ์ฆ๊ฐํ ์๋ก PII ์๊ธฐ์จ์ด ์ผ๊ด๋๊ฒ ์ฆ๊ฐํ๋ฉฐ, ์ฝํ ์ธ ์ ํ์ ๋ฐ๋ผ ์๊ธฐ์จ์ด ๋ค๋ฅด๊ฒ ๋ํ๋๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์ด๋ PANORAMA๊ฐ ๋ฌธ๋งฅ์ ๋ฐ๋ฅธ ์๊ธฐ ์ํ์ ์ฐจ์ด๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐ ํ์ํ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ์์ฌํฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, PANORAMA๋ LLM์ ๊ฐ์ธ์ ๋ณด ์๊ธฐ ์ํ ํ๊ฐ, ๋ชจ๋ธ ๊ฐ์ฌ, ๊ฐ์ธ์ ๋ณด ๋ณดํธ LLM ๊ฐ๋ฐ์ ํ์์ ์ธ ์์์ ์ ๊ณตํฉ๋๋ค. ๊ณต๊ฐ์ ์ผ๋ก ์ ๊ณต๋๋ PANORAMA ๋ฐ์ดํฐ์ ๊ณผ ์ฝ๋๋ AI ์ฐ๊ตฌ์์ ๊ฐ๋ฐ์์๊ฒ ๊ท์คํ ๋๊ตฌ๊ฐ ๋ ๊ฒ์ด๋ฉฐ, AI ๊ธฐ์ ์ ์ค๋ฆฌ์ ์ด๊ณ ์์ ํ ๋ฐ์ ์ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ํ์ง๋ง, ํฉ์ฑ ๋ฐ์ดํฐ์ ํ๊ณ์ ์ค์ ๋ฐ์ดํฐ์์ ์ฐจ์ด์ ์ ๊ณ ๋ คํ์ฌ ๊ฒฐ๊ณผ ํด์์ ์ ์ค์ ๊ธฐํด์ผ ํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] PANORAMA: A synthetic PII-laced dataset for studying sensitive data memorization in LLMs
Published: ย (Updated: )
Author: Sriram Selvam, Anneswa Ghosh
http://arxiv.org/abs/2505.12238v1