π¨ AI μ±λ΄μ μ΄λμ΄ κ·Έλ¦Όμ: μ μ± μ§μ 곡격과 λ°©μ΄ κΈ°μ μ νμ£Όμ π¨
LLM κΈ°λ° μμ€ν μ μμ μ± λ¬Έμ μ μ μ± μ§μ 곡격μ λν λμ κΈ°μ μ νκ°ν μ°κ΅¬ κ²°κ³Όλ₯Ό μκ°ν©λλ€. Lakera Guardμ ProtectAI LLM Guardκ° μ°μν μ±λ₯μ 보μμ§λ§, ν΄λ‘μ¦λ μμ€ μ 곡μ 체μ ν¬λͺ μ± ν₯μ λ± μ¬νμ λ Έλ ₯μ μ€μμ±μ κ°μ‘°ν©λλ€.

π₯ AI μ±λ΄μ μ¨κ²¨μ§ μν: μ μ± μ§μ 곡격과 κ·Έ λμ π₯
μλ£, κΈμ΅ λ± μ€μ μμ€ν μ LLM(λκ·λͺ¨ μΈμ΄ λͺ¨λΈ) κΈ°λ° μ±λ΄μ΄ μμ λμ λκ³ μμ΅λλ€. νμ§λ§ μ΄ νΈλ¦¬ν¨ μμ μ¨κ²¨μ§ μ΄λμ΄ κ·Έλ¦Όμκ° μμ΅λλ€. λ°λ‘ μ μ± μ§μ 곡격μ λλ€. μ¬μ©μκ° μ μμ μΈ μ§μλ₯Ό ν΅ν΄ λ΄λΆ λ°μ΄ν° μ μΆμ΄λ μ 3μ νΌν΄λ‘ μΈν λ²μ μ± μ λ± μ¬κ°ν λ¬Έμ λ₯Ό μΌκΈ°ν μ μλ€λ μ¬μ€μ λλ€.
Sayon Palitκ³Ό Daniel Woods μ°κ΅¬νμ μ΄λ¬ν μνμ λ§μ κ°λ° μ€μΈ 보μ λꡬλ€μ ν¨κ³Όμ μ¬μ©μ±μ λ©΄λ°ν λΆμν μ°κ΅¬ κ²°κ³Όλ₯Ό λ°ννμ΅λλ€. μ°κ΅¬νμ 13κ°μ LLM 보μ μ루μ (9κ° ν΄λ‘μ¦λ μμ€, 4κ° μ€ν μμ€)μ μ‘°μ¬νμ§λ§, λ μ λͺ¨λΈ μμ μλ€μ μ°Έμ¬ λΆμ‘±μΌλ‘ 7κ°λ§ νκ°μ ν¬ν¨λμμ΅λλ€.
μ°κ΅¬νμ μ μ± ν둬ννΈμ λ²€μΉλ§ν¬ λ°μ΄ν°μ μ ꡬμΆνμ¬, ChatGPT-3.5-Turboλ₯Ό κΈ°μ€ λͺ¨λΈλ‘ μΌμ κ° μ루μ μ μ±λ₯μ νκ°νμ΅λλ€. κ²°κ³Όλ 좩격μ μ΄μμ΅λλ€. κΈ°μ€ λͺ¨λΈ μμ²΄κ° λ무 λ§μ μ€νμ λ°μμμΌ μ΄ μμ μ μ ν©νμ§ μλ€λ μ¬μ€μ΄ λλ¬λ κ²μ λλ€.
κ·ΈλΌμλ λΆκ΅¬νκ³ , Lakera Guardμ ProtectAI LLM Guardλ μ¬μ©μ±κ³Ό μ±λ₯ μΈ‘λ©΄μμ κ· νμ μ λ§μΆ μ΅κ³ μ λκ΅¬λ‘ νκ°λμμ΅λλ€. μ΄λ AI 보μ κΈ°μ μ΄ μμ§ λ°μ λ¨κ³μ μμμ 보μ¬μ£Όλ λμμ, μλΉν μμ€μ μμ μ± νλ³΄κ° κ°λ₯νλ€λ μ μ μμ¬ν©λλ€.
νμ§λ§ μ΄ μ°κ΅¬λ λ¨μν κΈ°μ μ νκ°λ₯Ό λμ΄, λμ± κ·Όλ³Έμ μΈ λ¬Έμ λ₯Ό μ κΈ°ν©λλ€. μ°κ΅¬νμ ν΄λ‘μ¦λ μμ€ μ 곡μ 체μ ν¬λͺ μ± ν₯μ, μν© μΈμ νμ§ κΈ°μ κ°μ , μ€νμμ€ κ°λ° μ°Έμ¬ νλ, μ¬μ©μ μΈμ μ κ³ , κ·Έλ¦¬κ³ λμ± νμ€μ μΈ μ±λ₯ μΈ‘μ μ§ν μ±νμ κ°λ ₯νκ² κΆκ³ νμ΅λλ€.
κ²°λ‘ μ μΌλ‘, LLM κΈ°λ° μμ€ν μ μμ μ± ν보λ κΈ°μ μ λ°μ κ³Ό λλΆμ΄, μ κ³μ ν¬λͺ μ± μ κ³ λ° μ¬μ©μμ μ κ·Ήμ μΈ μ°Έμ¬λ₯Ό ν΅ν μ¬νμ λ Έλ ₯μ΄ λ³νλμ΄μΌ ν¨μ μμ¬νλ μ°κ΅¬ κ²°κ³Όμ λλ€. AI κΈ°μ μ λ°μ κ³Ό ν¨κ», κ·Έ μ΄λ μμ μ¨κ²¨μ§ μνμ λν κ²½κ°μ¬μ λ¦μΆ°μλ μ λ κ²μ λλ€. π§
Reference
[arxiv] Evaluating the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset
Published: Β (Updated: )
Author: Sayon Palit, Daniel Woods
http://arxiv.org/abs/2505.13028v2