π¨ 좩격! AI λ‘λ΄, ν΄νΉ μνμ λ ΈμΆλλ€! π€ 'Robo-Troj' 곡격μ μν
λ³Έ κΈ°μ¬λ LLM κΈ°λ° λ‘λ΄ μμ κ³ν μμ€ν μ 보μ μ·¨μ½μ±μ μ΅μ΄λ‘ λ°ν μ°κ΅¬ κ²°κ³Όλ₯Ό μκ°νλ©°, 'Robo-Troj' λΌλ μλ‘μ΄ λ©ν°-νΈλ¦¬κ±° λ°±λμ΄ κ³΅κ²© κΈ°λ²κ³Ό κ·Έ μνμ±μ μμΈν μ€λͺ ν©λλ€. μ°κ΅¬μ§μ μ΄λ₯Ό ν΅ν΄ μμ ν λ‘λ΄ μμ€ν ꡬμΆμ νμμ±μ κ°μ‘°νλ©°, ν₯ν AI λ‘λ΄ κΈ°μ λ°μ μ λν μ€μν μμ¬μ μ μ 곡ν©λλ€.

AI λ‘λ΄μ μ΄λμ΄ κ·Έλ¦Όμ: Robo-Troj 곡격μ λ±μ₯
μ΅κ·Ό, μΈκ³΅μ§λ₯(AI) κΈ°λ° λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ νμ©ν λ‘λ΄ μμ κ³ν μμ€ν μ΄ κΈμλλ‘ λ°μ νκ³ μμ΅λλ€. 볡μ‘ν μμ λ λ¨κ³λ³λ‘ ν΄κ²°νλ LLMμ λλΌμ΄ λ₯λ ₯μ μ°λ¦¬μ μΆμ λμ± νΈλ¦¬νκ² λ§λ€μ΄ μ€ κ²μΌλ‘ κΈ°λλ©λλ€. νμ§λ§, μ΄λ¬ν κΈ°μ λ°μ κ³Ό ν¨κ» λ±μ₯ν μ΄λμ΄ κ·Έλ¦Όμκ° μμ΅λλ€. λ°λ‘, Mohaiminul Al Nahian λ± μ°κ΅¬μ§μ΄ λ°νν λ Όλ¬Έ, "Robo-Troj: Attacking LLM-based Task Planners"μμ λ°νμ§ LLM κΈ°λ° λ‘λ΄ μμ κ³ν μμ€ν μ μ¬κ°ν 보μ μ·¨μ½μ±μ λλ€.
Robo-Troj: λ©ν°-νΈλ¦¬κ±° λ°±λμ΄ κ³΅κ²©μ μν
μ°κ΅¬μ§μ Robo-Troj λΌλ μλ‘μ΄ ννμ λ©ν°-νΈλ¦¬κ±° λ°±λμ΄ κ³΅κ²©μ κ°λ°νμ΅λλ€. μ΄λ λ¨μν νΈλ¦¬κ±° λ¨μ΄κ° μλ, λ€μν νΈλ¦¬κ±° λ¨μ΄λ₯Ό μ¬μ©νμ¬ λ‘λ΄μ λ€μν μ ν리μΌμ΄μ λλ©μΈμ 곡격μ μ μ©ν μ μλ€λ κ²μ μλ―Έν©λλ€. μλ₯Ό λ€μ΄, "herical"κ³Ό κ°μ νΉμ νΈλ¦¬κ±° λ¨μ΄λ₯Ό μ¬μ©νμ¬ μ£Όλ°© λ‘λ΄μ μμ μλ₯΄λ λ±μ μ μμ μΈ νλμ μ λ°ν μ μμ΅λλ€. νΉν, μ°κ΅¬μ§μ μ΅μ μ νΈλ¦¬κ±° λ¨μ΄λ₯Ό μ ννκΈ° μν μ΅μ ν λ°©λ²κΉμ§ μ μνμ¬ κ³΅κ²©μ ν¨μ¨μ±μ κ·Ήλννμ΅λλ€.
μμ ν λ‘λ΄ μμ€ν ꡬμΆμ νμμ±
Robo-Troj 곡격μ LLM κΈ°λ° λ‘λ΄ μμ κ³ν μμ€ν μ μ¬κ°ν μ·¨μ½μ±μ 보μ¬μ£Όλ κ°λ ₯ν μ¦κ±°μ λλ€. μ΄ μ°κ΅¬λ λ¨μν μ·¨μ½μ±μ λ°νλ κ²μ λμ΄, ν₯ν μμ νκ³ μ λ’°ν μ μλ λ‘λ΄ μμ€ν μ ꡬμΆνκΈ° μν μ€μν μ΄μ νλ₯Ό μ μν©λλ€. μ°κ΅¬μ§μ μ΄λ² μ°κ΅¬λ₯Ό ν΅ν΄ AI λ‘λ΄ μμ€ν μ 보μ κ°ν νμμ±μ κ°μ‘°νλ©°, λ μμ ν λ―Έλλ₯Ό μν κΈ°μ μ λ°μ μ μ΄κ΅¬νκ³ μμ΅λλ€.
μ΄ μ°κ΅¬λ LLM κΈ°λ° λ‘λ΄ μμ€ν μ 보μμ λν μ¬κ°ν μ°λ €λ₯Ό μ κΈ°νλ©°, ν₯ν 보μ κ°νλ₯Ό μν μ°κ΅¬μ κ°λ°μ μ€μμ±μ λ€μ νλ² μΌκΉ¨μμ€λλ€. μ°λ¦¬λ κΈ°μ λ°μ κ³Ό ν¨κ» μμ μ λν κ³ λ €λ₯Ό κ· ν μκ² μ΄μ΄λκ°μΌ ν κ²μ λλ€.
μμΌλ‘ λμκ°μΌ ν κΈΈ
μ΄μ μ°λ¦¬λ λ¨μν κΈ°λ₯μ μΈ μΈ‘λ©΄λΏ μλλΌ, 보μμ΄λΌλ μ€μν μΈ‘λ©΄κΉμ§ κ³ λ €ν AI λ‘λ΄ μμ€ν κ°λ°μ νμ¨μΌ ν©λλ€. Robo-Troj μ κ°μ 곡격μ λ°©μ§νκΈ° μν κ°λ ₯ν 보μ λ©μ»€λμ¦ κ°λ°κ³Ό λλΆμ΄, μ§μμ μΈ λ³΄μ κ°μ¬ λ° μ·¨μ½μ± νκ°κ° νμμ μ λλ€. AI λ‘λ΄ κΈ°μ μ κΈμ μ μΈ λ©΄μ κ·Ήλννλ©΄μ λμμ μνμ μ΅μννκΈ° μν λ Έλ ₯μ μμΌλ‘λ κ³μλμ΄μΌ ν©λλ€. μ΄λ μ°λ¦¬ λͺ¨λμ μμ κ³Ό λ―Έλλ₯Ό μν νμμ μΈ κ³Όμ μ λλ€.
Reference
[arxiv] Robo-Troj: Attacking LLM-based Task Planners
Published: Β (Updated: )
Author: Mohaiminul Al Nahian, Zainab Altaweel, David Reitano, Sabbir Ahmed, Saumitra Lohokare, Shiqi Zhang, Adnan Siraj Rakin
http://arxiv.org/abs/2504.17070v1