๐Ÿšจ AI์˜ ๊ฐœ์ธ์ •๋ณด ์•”๊ธฐ ์œ„ํ—˜, PANORAMA๊ฐ€ ๋ฐํžˆ๋‹ค! ๐Ÿšจ


๋ณธ ๊ธฐ์‚ฌ๋Š” LLM์˜ ๊ฐœ์ธ์ •๋ณด ์•”๊ธฐ ์œ„ํ—˜์„ ๋‹ค๋ฃจ๋ฉฐ, ์ด ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹ PANORAMA์™€ ๊ทธ ์œ ์šฉ์„ฑ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. PANORAMA๋Š” ์‹ค์ œ ์˜จ๋ผ์ธ ํ™˜๊ฒฝ์„ ๋ฐ˜์˜ํ•œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋ฐ์ดํ„ฐ ๋ฐ˜๋ณต ํšŸ์ˆ˜์™€ ์ฝ˜ํ…์ธ  ์œ ํ˜•์— ๋”ฐ๋ฅธ PII ์•”๊ธฐ์œจ์˜ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” AI์˜ ์œค๋ฆฌ์  ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ์ค‘์š”ํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

related iamge

AI์˜ ๊ทธ๋ฆผ์ž: ๊ฐœ์ธ์ •๋ณด ์•”๊ธฐ์˜ ์œ„ํ˜‘๊ณผ PANORAMA์˜ ๋“ฑ์žฅ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ฐœ์ „์€ ์ธ๋ฅ˜์—๊ฒŒ ๋†€๋ผ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ์—ˆ์ง€๋งŒ, ๋™์‹œ์— ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ์ด๋ผ๋Š” ์‹ฌ๊ฐํ•œ ๊ทธ๋ฆผ์ž๋ฅผ ๋“œ๋ฆฌ์šฐ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. LLM์ด ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฏผ๊ฐํ•œ ๊ฐœ์ธ์ •๋ณด(PII)๋ฅผ ๊ธฐ์–ตํ•˜๊ณ , ์ด๋ฅผ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ฐฉ์‹์œผ๋กœ ๋…ธ์ถœํ•  ์œ„ํ—˜์ด ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Sriram Selvam๊ณผ Anneswa Ghosh ์—ฐ๊ตฌํŒ€์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, PANORAMA๋ผ๋Š” ํ˜์‹ ์ ์ธ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. PANORAMA (Profile-based Assemblage for Naturalistic Online Representation and Attribute Memorization Analysis) ๋Š” ์˜จ๋ผ์ธ ํ™˜๊ฒฝ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐœ์ƒํ•˜๋Š” PII์™€ ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ, ๋‹ค์–‘์„ฑ, ๋งฅ๋ฝ์„ ์ •๊ตํ•˜๊ฒŒ ๋ชจ๋ฐฉํ•˜์—ฌ ์ƒ์„ฑ๋œ 384,789๊ฐœ์˜ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. 9,674๊ฐœ์˜ ํ•ฉ์„ฑ ํ”„๋กœํ•„์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ๊ต์œก ์ˆ˜์ค€, ๊ฑด๊ฐ• ์ƒํƒœ, ์žฌ์ • ์ƒํƒœ ๋“ฑ ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ธ๊ตฌ ํ†ต๊ณ„ํ•™์  ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ ๋‚ด๋ถ€์ ์œผ๋กœ ์ผ๊ด€์„ฑ ์žˆ๋Š” ๋‹ค์ค‘ ์†์„ฑ ์ธ๊ฐ„ ํ”„๋กœํ•„์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌํŒ€์€ ์ œ๋กœ์ƒท ํ”„๋กฌํ”„ํŒ…๊ณผ OpenAI์˜ o3-mini ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์œ„ํ‚ค ์Šคํƒ€์ผ ๊ธฐ์‚ฌ, ์†Œ์…œ ๋ฏธ๋””์–ด ๊ฒŒ์‹œ๋ฌผ, ํฌ๋Ÿผ ํ† ๋ก , ์˜จ๋ผ์ธ ๋ฆฌ๋ทฐ, ๋Œ“๊ธ€, ๋งˆ์ผ“ํ”Œ๋ ˆ์ด์Šค ๋ชฉ๋ก ๋“ฑ ๋‹ค์–‘ํ•œ ์ฝ˜ํ…์ธ  ์œ ํ˜•์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ฝ˜ํ…์ธ ์—๋Š” ํ˜„์‹ค์ ์ด๊ณ  ๋ฌธ๋งฅ์ ์œผ๋กœ ์ ์ ˆํ•œ PII ๋ฐ ๊ธฐํƒ€ ๋ฏผ๊ฐํ•œ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

PANORAMA์˜ ์‹ค์šฉ์„ฑ ๊ฒ€์ฆ์„ ์œ„ํ•ด, ์—ฐ๊ตฌํŒ€์€ Mistral-7B ๋ชจ๋ธ์„ 1x, 5x, 10x, 25x์˜ ๋ฐ์ดํ„ฐ ๋ณต์ œ์œจ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  PII ์•”๊ธฐ์œจ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ฐ์ดํ„ฐ ๋ฐ˜๋ณต ํšŸ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก PII ์•”๊ธฐ์œจ์ด ์ผ๊ด€๋˜๊ฒŒ ์ฆ๊ฐ€ํ•˜๋ฉฐ, ์ฝ˜ํ…์ธ  ์œ ํ˜•์— ๋”ฐ๋ผ ์•”๊ธฐ์œจ์ด ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” PANORAMA๊ฐ€ ๋ฌธ๋งฅ์— ๋”ฐ๋ฅธ ์•”๊ธฐ ์œ„ํ—˜์˜ ์ฐจ์ด๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ํƒ์›”ํ•œ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, PANORAMA๋Š” LLM์˜ ๊ฐœ์ธ์ •๋ณด ์•”๊ธฐ ์œ„ํ—˜ ํ‰๊ฐ€, ๋ชจ๋ธ ๊ฐ์‚ฌ, ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ LLM ๊ฐœ๋ฐœ์— ํ•„์ˆ˜์ ์ธ ์ž์›์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ณต๊ฐœ์ ์œผ๋กœ ์ œ๊ณต๋˜๋Š” PANORAMA ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ฝ”๋“œ๋Š” AI ์—ฐ๊ตฌ์ž์™€ ๊ฐœ๋ฐœ์ž์—๊ฒŒ ๊ท€์ค‘ํ•œ ๋„๊ตฌ๊ฐ€ ๋  ๊ฒƒ์ด๋ฉฐ, AI ๊ธฐ์ˆ ์˜ ์œค๋ฆฌ์ ์ด๊ณ  ์•ˆ์ „ํ•œ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํ•œ๊ณ„์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€์˜ ์ฐจ์ด์ ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ฒฐ๊ณผ ํ•ด์„์— ์‹ ์ค‘์„ ๊ธฐํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] PANORAMA: A synthetic PII-laced dataset for studying sensitive data memorization in LLMs

Published: ย (Updated: )

Author: Sriram Selvam, Anneswa Ghosh

http://arxiv.org/abs/2505.12238v1