π₯LLM μμ΄μ νΈμ μμ μ μν νμ μ μΈ λ°©μ΄λ§, AGrail λ±μ₯!
λ³Έ κΈ°μ¬λ LLM μμ΄μ νΈμ μμ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ AGrailμ λν μ¬μΈ΅μ μΈ λΆμμ μ 곡ν©λλ€. AGrailμ μ μν μμ κ²μ¬ λ° ν¨κ³Όμ μΈ μ΅μ νλ₯Ό ν΅ν΄ κ³Όμ νΉμ λ° μμ€ν μνμ ν¨κ³Όμ μΌλ‘ λμνλ©°, λ€μν LLM μμ΄μ νΈμ κ³Όμ μ μ μ© κ°λ₯μ±μ 보μ¬μ€λλ€.

LLM μμ΄μ νΈ μλμ λΉκ³Ό κ·Έλ¦Όμ: μμ μ΄ μ΅μ°μ κ³Όμ
μ΅κ·Ό κΈμν λ°μ μ κ±°λνλ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μ΄μ λ¨μν λꡬλ₯Ό λμ΄, 볡μ‘ν μμ μ μ€μ€λ‘ μ²λ¦¬νλ μμ¨ μμ΄μ νΈλ‘ νμ½νκ³ μμ΅λλ€. λ¬Έμ ν΄κ²° λ₯λ ₯κ³Ό λ€μν μν©μ λν μ μλ ₯μ λλμ§λ§, λμμ κ³Όμ νΉμ μνκ³Ό μμ€ν μνμ΄λΌλ μ¬κ°ν λ¬Έμ λ₯Ό μκ³ μμ΅λλ€. κ³Όμ νΉμ μνμ μμ΄μ νΈ κ΄λ¦¬μκ° νΉμ κ³Όμ μ μꡬμ¬νκ³Ό μ μ½ μ‘°κ±΄μ λ°λΌ μλ³νλ μνμ΄κ³ , μμ€ν μνμ LLMμ μ€κ³λ μνΈ μμ©μ μ·¨μ½μ±μμ λΉλ‘―λμ΄ μ 보μ κΈ°λ°μ±, 무결μ±, κ°μ©μ±(CIA)μ μμμν€κ³ 보μ μνμ μ΄λν μ μλ μνμ λλ€. κΈ°μ‘΄μ λ°©μ΄ μμ€ν μ μ΄λ¬ν μνμ ν¨κ³Όμ μ΄κ³ μ μμ μΌλ‘ λμνμ§ λͺ»νλ νκ³λ₯Ό κ°μ§κ³ μμ΅λλ€.
AGrail: LLM μμ΄μ νΈμ μμ μ μν νκΈ°μ μΈ ν΄κ²°μ±
Luo λ± μ°κ΅¬μ§μ΄ λ°νν λ Όλ¬Έμμ μ μλ AGrailμ μ΄λ¬ν λ¬Έμ μ λν νκΈ°μ μΈ ν΄κ²°μ± μ λλ€. AGrailμ LLM μμ΄μ νΈμ μμ μ κ°ννκΈ° μν νμ μμ΄μ νΈ λ³΄νΈ μ₯μΉλ‘, μ μν μμ κ²μ¬ μμ±, ν¨κ³Όμ μΈ μμ κ²μ¬ μ΅μ ν, κ·Έλ¦¬κ³ λꡬ νΈνμ± λ° μ μ°μ±μ νΉμ§μΌλ‘ ν©λλ€.
μ΄λ κΈ°μ‘΄ μμ€ν κ³Όλ μ°¨λ³νλλ ν΅μ¬ κ°μ μ λλ€. λ¨μν μνμ λ§λ κ²μ΄ μλλΌ, μνμ μμΈ‘νκ³ μ μνλ©° λμνλ μμ€ν μ ꡬμΆν¨μΌλ‘μ¨, λ³΄λ€ μμ νκ³ μ λ’°ν μ μλ LLM μμ΄μ νΈ μ΄μ©μ κ°λ₯νκ² ν©λλ€.
μ€ν κ²°κ³Ό: νμν μ±λ₯κ³Ό νμ₯μ± μ μ¦
κ΄λ²μν μ€ν κ²°κ³Όλ AGrailμ΄ κ³Όμ νΉμ μνκ³Ό μμ€ν μν λͺ¨λμ κ°λ ₯ν μ±λ₯μ 보μ΄λ©°, λ€λ₯Έ LLM μμ΄μ νΈμ κ³Όμ μλ μ μ΄ κ°λ₯μ±μ΄ μμμ μ μ¦νμ΅λλ€. μ΄λ AGrailμ΄ λ¨μν νΉμ LLM μμ΄μ νΈμ κ΅νλμ§ μκ³ , νλμ μν©μ μ μ©λ μ μμμ μλ―Ένλ νκΈ°μ μΈ κ²°κ³Όμ λλ€.
λ―Έλλ₯Ό ν₯ν μ λ§: λμ± μμ νκ³ μ λ’°ν μ μλ AI μμ€ν μΌλ‘
AGrailμ λ±μ₯μ LLM μμ΄μ νΈμ μμ μ± ν₯μμ μμ΄ μ€μν μ΄μ νλ₯Ό μΈμ μ΅λλ€. μμΌλ‘ λμ± λ°μ λ AGrailμ ν΅ν΄ λμ± μμ νκ³ μ λ’°ν μ μλ AI μμ€ν ꡬμΆμ΄ κ°λ₯ν΄μ§ κ²μΌλ‘ κΈ°λλ©λλ€. AI κΈ°μ μ λ°μ κ³Ό ν¨κ» μμ μ λν κ³ λ―Ό λν μ§μλμ΄μΌ ν¨μ 보μ¬μ£Όλ μ€μν μ¬λ‘μ λλ€. λμμλ μ°κ΅¬μ λ Έλ ₯μ ν΅ν΄ μΈλ₯μκ² μ΄λ‘μ΄ AI μμ€ν μ ꡬμΆνλ λ° κΈ°μ¬ν΄μΌ ν κ²μ λλ€.
Reference
[arxiv] AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection
Published: Β (Updated: )
Author: Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen, Chaowei Xiao
http://arxiv.org/abs/2502.11448v2