π¨ LLM λ³΄νΈ μμ€ν μ μ·¨μ½μ± 곡κ°: μ μμ ν둬ννΈ κ³΅κ²© μ°ν κ°λ₯μ± κ²½κ³ π¨
μ΅κ·Ό μ°κ΅¬μμ LLM λ³΄νΈ μμ€ν μ μ·¨μ½μ±μ΄ λλ¬λλ©΄μ, ν둬ννΈ μ£Όμ λ° νμ₯ 곡격μ λν μ°λ €κ° 컀μ§κ³ μμ΅λλ€. μ°κ΅¬μ§μ κΈ°μ‘΄ 보μ μμ€ν μ μ°ννλ λ κ°μ§ λ°©λ²μ μ μνλ©°, λμ± κ°λ ₯ν λ³΄νΈ μμ€ν μ νμμ±μ κ°μ‘°νμ΅λλ€.

LLM λ³΄νΈ μμ€ν , νμ λ ΈμΆ: 'ν둬ννΈ μ£Όμ ' 곡격 μ°ν κ°λ₯μ± κ²½κ³
μ΅κ·Ό, μ리μ ν΄μΌ(William Hackett) λ± μ°κ΅¬μ§μ΄ λ°νν λ Όλ¬Έ "LLM Guardrailsμμ ν둬ννΈ μ£Όμ λ° νμ₯ κ°μ§λ₯Ό μ°ννλ λ°©λ²"μ μΈκ³΅μ§λ₯(AI) λΆμΌμ 좩격μ μ£Όκ³ μμ΅λλ€. μ΄ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) λ³΄νΈ μμ€ν μ μ·¨μ½μ±μ μ λλΌνκ² λλ¬λκΈ° λλ¬Έμ λλ€.
κΈ°μ‘΄ 보μ μμ€ν μ νκ³ κ·Ήλ³΅: λ κ°μ§ μ°ν κΈ°λ² κ³΅κ°
μ°κ΅¬μ§μ κΈ°μ‘΄μ λ¬Έμ μ½μ κΈ°λ²κ³Ό μ λμ κΈ°κ³ νμ΅(AML) κΈ°λ²μ νμ©νμ¬, λ§μ΄ν¬λ‘μννΈμ Azure Prompt Shieldμ λ©νμ Prompt Guard λ± 6κ°μ μ£Όμ LLM λ³΄νΈ μμ€ν μ μ°ννλ λ° μ±κ³΅νμ΅λλ€. λ¨μν λ¬Έμ μ‘°μλΏ μλλΌ, AI μ체μ μ·¨μ½μ μ 곡격νλ AML κΈ°λ²κΉμ§ λμνμ¬, λλκ²λ μ΅λ 100%μ ννΌ μ±κ³΅λ₯ μ λ¬μ±νμ΅λλ€.
λΈλλ°μ€ 곡격 μ±κ³΅λ₯ ν₯μ: λ¨μ΄ μ€μλ μμ νμ©
λμ± λλΌμ΄ μ μ, μ°κ΅¬μ§μ΄ μ€νλΌμΈ νμ΄νΈλ°μ€ λͺ¨λΈμ μ΄μ©νμ¬ λ¨μ΄μ μ€μλ μμλ₯Ό λΆμνκ³ μ΄λ₯Ό λΈλλ°μ€ 곡격μ νμ©νμ¬ μ±κ³΅λ₯ μ λμ± λμλ€λ κ²μ λλ€. μ΄λ 곡격μκ° AI μμ€ν μ λ΄λΆ μλ λ°©μμ λν μλ²½ν μ 보 μμ΄λ ν¨κ³Όμ μΌλ‘ 곡격ν μ μμμ μλ―Έν©λλ€.
AI 보μμ μλ‘μ΄ κ³Όμ : λ κ°λ ₯ν λ³΄νΈ μμ€ν νμ
μ΄ μ°κ΅¬λ νμ¬μ LLM λ³΄νΈ λ©μ»€λμ¦μ΄ μΌλ§λ μ·¨μ½νμ§λ₯Ό λͺ νν 보μ¬μ€λλ€. λ¨μν ν둬ννΈ μ‘°μμ λμ΄, AIμ νμ΅ κ³Όμ μ체λ₯Ό μ΄μ©ν μ κ΅ν 곡격κΉμ§ κ°λ₯νλ€λ μ¬μ€μ AI 보μμ λν μλ‘μ΄ κ³Όμ λ₯Ό μ μν©λλ€. μμΌλ‘ λμ± κ°λ ₯νκ³ μ κ΅ν λ³΄νΈ μμ€ν κ°λ°μ΄ μκΈν μν©μ λλ€. μ΄ μ°κ΅¬λ AI 보μ λΆμΌμ λ°μ μ μ€μν μ νμ μ΄ λ κ²μ΄λ©°, μ°λ¦¬λ AI μμ€ν μ μμ μ± ν보λ₯Ό μν΄ λμμλ λ Έλ ₯μ κΈ°μΈμ¬μΌ ν©λλ€.
μ°Έκ³ : λ³Έ κΈ°μ¬λ μ°κ΅¬ λ Όλ¬Έ "Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails"μ λ°νμΌλ‘ μμ±λμμ΅λλ€. μ°κ΅¬μ§μ μ¬μΈν λΆμκ³Ό κ²½κ³ μ κ· κΈ°μΈμ¬, μμ ν AI μμ€ν ꡬμΆμ ν¨κ» λ Έλ ₯ν΄μΌ ν©λλ€.
Reference
[arxiv] Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails
Published: Β (Updated: )
Author: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan
http://arxiv.org/abs/2504.11168v1