π¨ LLM μμ νν°, 'ν둬ννΈ λΆν μ 볡' μ λ΅μ 무λμ§λ€ π¨
λ³Έ κΈ°μ¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μμ νν°λ₯Ό μ°ννλ μλ‘μ΄ λ°©λ²μ μ μν μ°κ΅¬μ λν΄ λ€λ£Ήλλ€. 'ν둬ννΈ λΆν μ 볡'μ΄λΌλ μλ‘μ΄ νλ μμν¬λ₯Ό ν΅ν΄ μ μ± μ½λ μμ± μ±κ³΅λ₯ μ΄ 73.2%μ λ¬νμΌλ©°, λ¨μΌ LLM νκ°μ νκ³μ λ€μ€ LLM νκ°μ μ€μμ±μ κ°μ‘°ν©λλ€. μ΄λ AI μμ μμ€ν μ μ§μμ μΈ μ°κ΅¬ λ° κ°λ°μ νμμ±μ μμ¬ν©λλ€.

AI μμ μ νμ μ νκ³ λ μ°κ΅¬: 'ν둬ννΈ λΆν μ 볡' μ λ΅
μ΅κ·Ό, Johan WahrΓ©us, Ahmed Hussain, Panos Papadimitratos μΈ μ°κ΅¬μμ΄ λ°νν λ Όλ¬Έ "Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing"μ΄ AI μ κ³μ 좩격μ μ£Όκ³ μμ΅λλ€. μ΄ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μμ νν°λ₯Ό μ°ννλ μλ‘μ΄ λ°©λ²μ μ μνλ©°, κ·Έ μνμ±μ κ°μ‘°ν©λλ€.
μμ νν° μ°νμ μλ‘μ΄ μ§ν: 'ν둬ννΈ λΆν μ 볡'
μ°κ΅¬νμ 'ν둬ννΈ λΆν μ 볡'μ΄λΌλ λ μ°½μ μΈ νλ μμν¬λ₯Ό κ°λ°νμ΅λλ€. μ΄λ ν둬ννΈλ₯Ό μ¬λ¬ λΆλΆμΌλ‘ λλμ΄ λ³λ ¬ μ²λ¦¬νκ³ , κ²°κ³Όλ₯Ό μ’ ν©νμ¬ μ μ± μ½λμ κ°μ μνν μ½ν μΈ μμ±μ μλνλ λ°©μμ λλ€. μ΄ κ³Όμ μμ LLM κΈ°λ° λ°°μ¬μ νκ° μμ€ν μ λμ , κ²°κ³Όμ μ νμ±μ λμμ΅λλ€.
λλκ²λ, 10κ°μ§ μ¬μ΄λ² 보μ λΆμΌμ κ±Έμ³ 500κ°μ μ μ± ν둬ννΈλ₯Ό ν μ€νΈν κ²°κ³Ό, **μ μ± μ½λ μμ± μ±κ³΅λ₯ μ΄ λ¬΄λ € 73.2%**μ λ¬νμ΅λλ€. λ¨μΌ LLM νκ°λ 93.8%μ λμ μ±κ³΅λ₯ μ 보μμ§λ§, μ°κ΅¬νμ μ΄λ λΆμμ ν ꡬνλ ν¬ν¨ν κ³Όλ νκ°μμ LLM λ°°μ¬μ μμ€ν μ ν΅ν΄ νμΈνμ΅λλ€. μ΄λ κΈ°μ‘΄ νκ° λ°©μμ νκ³μ λμ± μ κ΅ν νκ° μμ€ν μ νμμ±μ 보μ¬μ€λλ€. λν, λΆμ° μ²λ¦¬ λ°©μμ΄ μ±κ³΅λ₯ μ 12% ν₯μμμΌ°λ€λ μ μ λΆμ° ν둬ννΈ μ²λ¦¬μ ν¨κ³Όλ₯Ό μ μ¦ν©λλ€.
AI μμ μ λ―Έλ: λμμλ κ²½κ³μ λ°μ
μ΄ μ°κ΅¬λ LLMμ μμ νν°κ° μλ²½νμ§ μμΌλ©°, μ§μμ μΈ μ°κ΅¬μ κ°μ μ΄ νμν¨μ μμ¬ν©λλ€. λ¨μν μμ νν°λ§ κ°ννλ κ²μ΄ μλλΌ, μ°ν μλλ₯Ό λμ± μ ννκ² νκ°νκ³ λμνλ μμ€ν κ°λ°μ λν νμμ±μ κ°μ‘°ν©λλ€. AI κΈ°μ μ λ°μ κ³Ό ν¨κ» μμ μ± ν보λ λμμμ΄ μ΄λ£¨μ΄μ ΈμΌ ν κ³Όμ μ΄λ©°, μ΄ μ°κ΅¬λ κ·Έ μ€μμ±μ μμΌ μΌκΉ¨μμ€λλ€. μμΌλ‘ λμ± μ κ΅νκ³ μμ ν AI μμ€ν μ ꡬμΆνκΈ° μν λ Έλ ₯μ΄ μ§μμ μΌλ‘ μ΄μ΄μ§ κ²μΌλ‘ μμλ©λλ€.
Reference
[arxiv] Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
Published: Β (Updated: )
Author: Johan WahrΓ©us, Ahmed Hussain, Panos Papadimitratos
http://arxiv.org/abs/2503.21598v1