π¨ μ¬μ΄λ² 보μ AIμ μλ©΄μ±: μ μ© κ°λ₯μ±κ³Ό μμ ν λ―Έλλ₯Ό μν ν΄λ²
λ³Έ κΈ°μ¬λ μ μμ μΈ μ¬μ΄λ² 보μ λ°μ΄ν°λ‘ λ―ΈμΈ μ‘°μ λ LLMμ μμ μ± μνμ λΆμν μ°κ΅¬ κ²°κ³Όλ₯Ό μκ°ν©λλ€. μ°κ΅¬ κ²°κ³Ό, λ―ΈμΈ μ‘°μ μ LLMμ μμ μ±μ μ νμν€μ§λ§, μμ μ λ ¬ μ κ·Ό λ°©μμ ν΅ν΄ μμ μ±μ μ μ§νκ±°λ κ°μ ν μ μμμ 보μ¬μ€λλ€. μ΄λ AIμ μμ ν λ°μ κ³Ό μ€λ¦¬μ μ¬μ©μ μν μ€μν μμ¬μ μ μ 곡ν©λλ€.

μΈκ³΅μ§λ₯(AI)μ λ°μ μ μ¬μ΄λ² 보μ λΆμΌμ νμ μ κ°μ Έμμ΅λλ€. λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μν λΆμ λ° μ μ± μ½λ νμ§λ₯Ό ν₯μμν€λ λ± κΈμ μ μΈ λ©΄μ 보μ¬μ£Όκ³ μμ§λ§, λμμ κ°μΈ μ 보 μ μΆ λ° μλ‘μ΄ μ μ± μ½λ μλ μμ±κ³Ό κ°μ μ¬κ°ν μνμ μ΄λν μ μμ΅λλ€.
Adel ElZemity, Budi Arief, Shujun Li λ± μ°κ΅¬μ§μ΄ λ°νν λ Όλ¬Έ, βμ μμ μΈ μ¬μ΄λ² 보μ λ°μ΄ν°λ‘ λ―ΈμΈ μ‘°μ λ LLMμμμ μμ μν λΆμβμ μ΄λ¬ν μ°λ €λ₯Ό λͺ νν μ μν©λλ€. μ°κ΅¬μ§μ OWASP Top 10 for LLM Applications νλ μμν¬λ₯Ό μ¬μ©νμ¬ Phi 3 Mini 3.8B, Mistral 7B, Qwen 2.5 7B, Llama 3 8B, Llama 3.1 8B, Gemma 2 9B, Llama 2 70B λ± 7κ°μ μ€νμμ€ LLMμ λμμΌλ‘ μμ μ± μνμ 체κ³μ μΌλ‘ νκ°νμ΅λλ€.
κ²°κ³Όλ 좩격μ μ λλ€. λ―ΈμΈ μ‘°μ μ λͺ¨λ ν μ€νΈλ LLMμ μμ μ±μ μ νμμΌ°μ΅λλ€. μλ₯Ό λ€μ΄, Llama 3.1 8Bμ κ²½μ° ν둬ννΈ μ£Όμ μ λν μμ μ μκ° 0.95μμ 0.15λ‘ κΈκ²©ν κ°μνμ΅λλ€. μ΄λ μ μμ μΈ λͺ©μ μΌλ‘ λ―ΈμΈ μ‘°μ λ LLMμ΄ μΌλ§λ μννμ§λ₯Ό 보μ¬μ£Όλ κ°λ ₯ν μ¦κ±°μ λλ€.
νμ§λ§ ν¬λ§μ μΈ μμλ μμ΅λλ€. μ°κ΅¬μ§μ μ΄λ¬ν μνμ μννκΈ° μν μμ μ λ ¬ μ κ·Ό λ°©μμ μ μνμ΅λλ€. μ΄ λ°©λ²μ μ§μΉ¨-μλ΅ μμ μ μ€νκ² λ€μ μμ±νμ¬ λͺ μμ μΈ μμ μλ°© μ‘°μΉμ μ€λ¦¬μ κ³ λ € μ¬νμ ν¬ν¨νλ κ²μ λλ€. μ΄ μ κ·Ό λ°©μμ κΈ°μ μ μ μ©μ±μ μ μ§νλ©΄μ λͺ¨λΈ μμ μ±μ μ μ§νκ±°λ μ¬μ§μ΄ κ°μ ν μ μμμ 보μ¬μ£Όμμ΅λλ€.
μ΄ μ°κ΅¬λ LLMμ μμ μνμ 체κ³μ μΌλ‘ νκ°νκ³ , λ―Όκ°ν μμμμ μμ±ν AIμ μμ ν μ±νμ κ°λ₯νκ² νλ©°, μμ νκ³ μ λ’°ν μ μμΌλ©° μ€λ¦¬μ μΌλ‘ μ λ ¬λ LLM κ°λ°μ κΈ°μ¬νλ μ€μν μ΄μ νκ° λ κ²μ λλ€. AIμ μ μ¬λ ₯μ μ΅λν νμ©νλ©΄μ μμ μ ν보νκΈ° μν μ§μμ μΈ μ°κ΅¬μ κ°λ°μ΄ μ μ€ν νμν μμ μ λλ€. AIμ λ°μ μ μ°λ¦¬ μ¬νμ μμ²λ κΈ°νλ₯Ό μ 곡νμ§λ§, κ·Έ μ΄λ μ κ·Έλ¦Όμλ ν¨κ» μ‘΄μ¬νλ€λ μ¬μ€μ μμ΄μλ μ λ©λλ€.
Reference
[arxiv] Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data
Published: Β (Updated: )
Author: Adel ElZemity, Budi Arief, Shujun Li
http://arxiv.org/abs/2505.09974v1