π¨ 좩격! AI λ©ν° μμ΄μ νΈ μμ€ν , ν΄νΉμ λλΌμΈ μ λλ‘ μ·¨μ½νλ€?! π±
λ³Έ κΈ°μ¬λ λ€μ€ μμ΄μ νΈ λ Όμ(MAD) μμ€ν μ 보μ μ·¨μ½μ±μ λν μ΅μ μ°κ΅¬ κ²°κ³Όλ₯Ό μκ°ν©λλ€. μ°κ΅¬μ§μ μλ‘μ΄ κ³΅κ²© κΈ°λ²μ ν΅ν΄ MAD μμ€ν μ μ ν΄ μ½ν μΈ μ λ μ±κ³΅λ₯ μ ν¬κ² λμΌ μ μμμ 보μ¬μ£ΌμμΌλ©°, μ΄λ₯Ό ν΅ν΄ MAD μμ€ν μ μ€μ λ°°ν¬ μ μ κ°λ ₯ν λ°©μ΄ λ©μ»€λμ¦ κ°λ°μ μκΈμ±μ κ°μ‘°ν©λλ€.

AI λ©ν° μμ΄μ νΈ μμ€ν μ μΉλͺ μ μ½μ : 'νμ₯' 곡격μ μμλ¬΄μ± ?!
μ΅κ·Ό, μμ© λνμΈμ΄λͺ¨λΈ(LLM) κΈ°λ°μ λ€μ€ μμ΄μ νΈ λ Όμ(MAD) μμ€ν μ 보μ μ·¨μ½μ±μ΄ μ¬κ°ν μμ€μμ 보μ¬μ£Όλ μ°κ΅¬ κ²°κ³Όκ° λ°νλμμ΅λλ€. Qi λ±μ μ°κ΅¬μ§μ GPT-4o, GPT-4, GPT-3.5-turbo, DeepSeek λ± 4κ°μ§ μ£Όμ MAD νλ μμν¬λ₯Ό λμμΌλ‘ 'νμ₯' 곡격(jailbreak attack)μ λν μ·¨μ½μ±μ 체κ³μ μΌλ‘ μ‘°μ¬νμ΅λλ€.
MAD μμ€ν : νλ ₯κ³Ό μνμ μλ©΄μ±
MAD μμ€ν μ μ¬λ¬ κ°μ LLMμ΄ νλ ₯νμ¬ λ³΅μ‘ν λ¬Έμ λ₯Ό ν΄κ²°νλ μμ€ν μ λλ€. μνΈ μμ©κ³Ό μν κ·Ήμ ν΅ν΄ μΆλ‘ λ₯λ ₯μ ν₯μμν€λ κ²μ΄ λͺ©νμ§λ§, λ°λ³΅μ μΈ λνμ μν κ·Ήμ νΉμ±μΌλ‘ μΈν΄ μ ν΄ μ½ν μΈ λ₯Ό μ λνλ 'νμ₯' 곡격μ μ·¨μ½ν μ μλ€λ μ°λ €κ° μ κΈ°λμ΄ μμ΅λλ€.
'ꡬ쑰νλ ν둬ννΈ μ¬μμ±'μ΄λΌλ μλ‘μ΄ μν
μ°κ΅¬μ§μ μ΄λ¬ν μ°λ €λ₯Ό νμΈνκ³ μ, 'ꡬ쑰νλ ν둬ννΈ μ¬μμ±'μ΄λΌλ μλ‘μ΄ κ³΅κ²© κΈ°λ²μ κ°λ°νμ΅λλ€. μ΄ κΈ°λ²μ μμ¬μ μΊ‘μν, μν κΈ°λ° μμ€μ»¬λ μ΄μ , λ°λ³΅μ κ°μ , μμ¬μ νΌλμ΄λΌλ λ€ κ°μ§ μ λ΅μ κ²°ν©νμ¬ MAD μμ€ν μ μλμ±μ μ μ©ν©λλ€. λ§μΉ μ μ§μ¬μ§ κ°λ³Έμ²λΌ, LLMμ κ΅λ¬νκ² μ‘°μ’ ν΄ μ ν΄ μ½ν μΈ λ₯Ό μμ±νλλ‘ μ λνλ κ²μ΄μ£ .
좩격μ μΈ κ²°κ³Ό: μ·¨μ½μ± νμ¦!
μ€ν κ²°κ³Όλ 좩격μ μ λλ€. μ°κ΅¬μ§μ MAD μμ€ν μ΄ λ¨μΌ μμ΄μ νΈ μμ€ν λ³΄λ€ ν¨μ¬ μ·¨μ½νλ€λ κ²μ νμΈνμΌλ©°, μλ‘μ΄ κ³΅κ²© κΈ°λ²μ μ μ©νμ λ νκ· μ ν΄μ±μ΄ 28.14%μμ λ¬΄λ € 80.34%λ‘ κΈμ¦νκ³ , νΉμ μλ리μ€μμλ 곡격 μ±κ³΅λ₯ μ΄ 80%μ λ¬νμ΅λλ€. μ΄λ MAD μμ€ν μ κ³ μ ν ꡬ쑰μ μ·¨μ½μ±μ 보μ¬μ£Όλ κ·Ήμ μΈ μ¦κ±°μ λλ€.
κ²°λ‘ : κΈ΄κΈν λλΉμ± λ§λ ¨μ΄ νμνλ€!
μ΄ μ°κ΅¬λ MAD μμ€ν μ μ€μ λ°°ν¬ μ μ κ°λ ₯νκ³ νΉνλ λ°©μ΄ λ©μ»€λμ¦μ κ°λ°μ΄ μκΈν¨μ 보μ¬μ€λλ€. λ¨μν LLMμ μ±λ₯ κ°μ λ§μΌλ‘λ λΆμ‘±νλ©°, MAD μμ€ν μ κ³ μ ν ꡬ쑰μ μ·¨μ½μ±μ ν΄κ²°νλ μλ‘μ΄ λ³΄μ μ λ΅μ΄ νμν©λλ€. AI μμ€ν μ μμ μ±μ λν μ°λ €κ° 컀μ§κ³ μλ λ§νΌ, μ΄ μ°κ΅¬ κ²°κ³Όλ μ°λ¦¬μκ² AI κΈ°μ μ μ€λ¦¬μ , μμ μ μΈ μΈ‘λ©΄μ λν μ¬κ°ν κ³ λ―Όμ μ΄κ΅¬νκ³ μμ΅λλ€.
Reference
[arxiv] Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate
Published: Β (Updated: )
Author: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu
http://arxiv.org/abs/2504.16489v1