π¨ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ ν둬ννΈ μ μΆ κ³΅κ²© μλν: μμ΄μ νΈ κΈ°λ° μ κ·Ό λ°©μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ 보μ μ·¨μ½μ± μ€ ν둬ννΈ μ μΆ λ¬Έμ μ λν μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€. μνΈν κΈ°λ²μμ μκ°μ μ»μ μ격ν νλ μμν¬μ AG2(AutoGen) κΈ°λ° λ€μ€ μμ΄μ νΈ μμ€ν μ νμ©νμ¬ μλνλ μ λμ ν μ€νΈλ₯Ό μννλ©°, LLM 보μ ν₯μμ κΈ°μ¬ν©λλ€.

π€ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ 보μ, μκ°λ³΄λ€ μνν΄?
μ΅κ·Ό Tvrtko Sternak, Davor Runje, Dorian GranoΕ‘a, κ·Έλ¦¬κ³ Chi Wangμ΄ κ³΅λμΌλ‘ λ°νν λ Όλ¬Έ, "Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach"λ LLMμ 보μ μ·¨μ½μ±μ μλ‘κ² μ‘°λͺ νμ΅λλ€. νΉν, ν둬ννΈ μ μΆ(prompt leakage) μ΄λΌλ μ¬κ°ν λ¬Έμ μ μ§μ€νμ¬, μ΄λ₯Ό μλνλ λ°©μμΌλ‘ νκ°νλ νμ μ μΈ λ°©λ²λ‘ μ μ μνκ³ μμ΅λλ€.
π ν둬ννΈ μ μΆμ΄λ 무μμΌκΉμ?
ν둬ννΈ μ μΆμ΄λ μμ€ν λ 벨 ν둬ννΈ λλ λ μ κ΅¬μ± μ λ³΄κ° λ ΈμΆλλ κ²μ μλ―Έν©λλ€. μ΄λ LLMμ μμ ν λ°°ν¬μ μ¬κ°ν μνμ΄ λ μ μμ΅λλ€. λ§μΉ κΈκ³ μ λΉλ°λ²νΈκ° μμ΄λκ°λ κ²κ³Ό κ°λ€κ³ μκ°νλ©΄ λ©λλ€.
π‘οΈ μλ‘μ΄ νκ° νλ μμν¬: μνΈν κΈ°λ²μμ μκ°μ μ»λ€
μ°κ΅¬νμ κΈ°μ‘΄ μνΈν κΈ°λ²μ 보μ μ μμμ μκ°μ λ°μ, ν둬ννΈ μ μΆμ μμ ν μμ€ν μ μ격νκ² μ μνμ΅λλ€. μ¦, 곡격μκ° μλ³Έ ν둬ννΈμ λ―Όκ°ν μ λ³΄κ° μ κ±°λ ν둬ννΈλ₯Ό μ¬μ©ν λ μμ΄μ νΈμ μΆλ ₯μ ꡬλ³ν μ μμ΄μΌ μμ νλ€κ³ 보λ κ²μ λλ€.
π€ AG2(AutoGen)λ₯Ό νμ©ν λ€μ€ μμ΄μ νΈ μμ€ν
λ Όλ¬Έμμλ AG2(μ΄μ μ΄λ¦: AutoGen)λΌλ λ€μ€ μμ΄μ νΈ μμ€ν μ νμ©νμ¬ ν둬ννΈ μ μΆμ μλμΌλ‘ νμ§νλ μμ€ν μ ꡬμΆνμ΅λλ€. νλ ₯μ μΈ μμ΄μ νΈλ€μ΄ λͺ©ν LLMμ μ‘°μ¬νκ³ , ν둬ννΈλ₯Ό μ μΆνκΈ° μν΄ μμ€ν μ 곡격νλ ꡬ쑰μ λλ€. λ§μΉ μλ ¨λ ν΄μ»€λ€μ΄ νμ μ΄λ€ μμ€ν μ 곡λ΅νλ κ²κ³Ό κ°μ΅λλ€.
π μλνλ μν λͺ¨λΈλ§κ³Ό μ€μ§μ μΈ LLM 보μμ μ°κ²°κ³ 리
μ΄ μ°κ΅¬λ μλνλ μν λͺ¨λΈλ§κ³Ό μ€μ LLM 보μ μ¬μ΄μ κ°κ·Ήμ λ©μ°λ 체κ³μ μΈ λ°©λ²λ‘ μ μ μν©λλ€. GitHubμμ ν΄λΉ ꡬν μ½λλ₯Ό νμΈν μ μμΌλ©°, LLM 보μ λΆμΌμ λ°μ μ ν° κΈ°μ¬λ₯Ό ν κ²μΌλ‘ κΈ°λλ©λλ€.
π€ λ―Έλλ₯Ό μν κ³ μ°°
μ΄ μ°κ΅¬λ LLMμ 보μμ ν₯μμν€κΈ° μν μ€μν 첫걸μμ λλ€. νμ§λ§ ν둬ννΈ μ μΆ λ¬Έμ λ μ§μμ μΈ μ°κ΅¬μ λ°μ μ΄ νμν λΆμΌμ λλ€. μμΌλ‘ λμ± κ°λ ₯νκ³ μ κ΅ν 곡격 κΈ°λ²μ΄ λ±μ₯ν κ°λ₯μ±λ λ°°μ ν μ μκΈ° λλ¬Έμ λλ€. LLMμ μμ ν νμ©μ μν΄μλ μ§μμ μΈ λ³΄μ κ°ν λ Έλ ₯μ΄ νμμ μ λλ€.
Reference
[arxiv] Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach
Published: Β (Updated: )
Author: Tvrtko Sternak, Davor Runje, Dorian GranoΕ‘a, Chi Wang
http://arxiv.org/abs/2502.12630v1