🚨 AI μ—μ΄μ „νŠΈμ˜ 치λͺ…적 ν—ˆμ  곡개: SUDO ν”„λ ˆμž„μ›Œν¬μ˜ μœ„ν˜‘ πŸ”


λ³Έ κΈ°μ‚¬λŠ” AI μ—μ΄μ „νŠΈμ˜ λ³΄μ•ˆ 취약성을 λ“œλŸ¬λ‚Έ SUDO ν”„λ ˆμž„μ›Œν¬μ— λŒ€ν•œ 연ꡬ κ²°κ³Όλ₯Ό μ†Œκ°œν•©λ‹ˆλ‹€. SUDOλŠ” κΈ°μ‘΄ 방식과 달리, AI μ—μ΄μ „νŠΈμ˜ κ±°λΆ€ λ°˜μ‘μ„ ν•™μŠ΅ν•˜μ—¬ 곡격을 κ°œμ„ ν•˜λŠ” μ§€λŠ₯적인 μ‹œμŠ€ν…œμœΌλ‘œ, 높은 곡격 성곡λ₯ μ„ κΈ°λ‘ν•˜λ©° AI λ³΄μ•ˆμ— λŒ€ν•œ μ‹¬κ°ν•œ 우렀λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€.

related iamge

AI μ—μ΄μ „νŠΈμ˜ μ–΄λ‘μš΄ 그림자: SUDO ν”„λ ˆμž„μ›Œν¬κ°€ λ“œλŸ¬λ‚Έ μœ„ν—˜

졜근 κΈ‰μ†λ„λ‘œ λ°œμ „ν•˜λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) 기반의 AI μ—μ΄μ „νŠΈλŠ” 우리의 컴퓨터 ν™˜κ²½μ—μ„œ 자율적으둜 μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ©° νŽΈλ¦¬μ„±μ„ μ œκ³΅ν•©λ‹ˆλ‹€. ν•˜μ§€λ§Œ μ΄λŸ¬ν•œ νŽΈλ¦¬ν•¨ λ’€μ—λŠ” μ‹¬κ°ν•œ λ³΄μ•ˆ μœ„ν˜‘μ΄ 도사리고 μžˆμŠ΅λ‹ˆλ‹€. 이세진, 김건, λ°•ν•˜μ˜¨, 아쉬칸 μœ μ„Έν”„ν‘Έλ₯΄, μœ μƒμœ€, 솑민 λ“± 연ꡬ진이 λ°œν‘œν•œ λ…Όλ¬Έ "sudo rm -rf agentic_security"λŠ” λ°”λ‘œ μ΄λŸ¬ν•œ μœ„ν—˜μ„ μ λ‚˜λΌν•˜κ²Œ λ³΄μ—¬μ€λ‹ˆλ‹€.

SUDO: AI μ—μ΄μ „νŠΈμ˜ 방어막을 λ¬΄λ„ˆλœ¨λ¦¬λŠ” 곡격 ν”„λ ˆμž„μ›Œν¬

연ꡬ진이 κ°œλ°œν•œ SUDO(Screen-based Universal Detox2Tox Offense) ν”„λ ˆμž„μ›Œν¬λŠ” Claude Computer Use와 같은 μƒμš© AI μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μž₯치λ₯Ό μ²΄κ³„μ μœΌλ‘œ μš°νšŒν•˜λŠ” λ†€λΌμš΄ κΈ°μˆ μ„ μ„ λ³΄μž…λ‹ˆλ‹€. 핡심 λ©”μ»€λ‹ˆμ¦˜μΈ Detox2ToxλŠ” μ•…μ˜μ μΈ μš”μ²­μ„ λ¬΄ν•΄ν•œ μš”μ²­μœΌλ‘œ λ³€ν™˜ν•œ ν›„, κ³ κΈ‰ μ‹œκ° μ–Έμ–΄ λͺ¨λΈ(VLM)을 μ΄μš©ν•΄ μƒμ„Έν•œ μ§€μ‹œλ₯Ό ν™•λ³΄ν•˜κ³ , μ‹€ν–‰ 직전에 λ‹€μ‹œ μ•…μ„± μ½”λ“œλ₯Ό μ‚½μž…ν•˜λŠ” κ΅λ¬˜ν•œ 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€.

κΈ°μ‘΄ λ°©μ‹κ³Όμ˜ 차별성: μ§€λŠ₯적인 μ μ‘ν˜• 곡격

SUDOλŠ” 기쑴의 μ œμ•½ 우회 λ°©μ‹κ³ΌλŠ” λ‹€λ¦…λ‹ˆλ‹€. SUDOλŠ” AI μ—μ΄μ „νŠΈμ˜ κ±°λΆ€ λ°˜μ‘μ„ ν”Όλ“œλ°±μœΌλ‘œ ν™œμš©ν•˜μ—¬ 곡격을 반볡적으둜 κ°œμ„ ν•©λ‹ˆλ‹€. μ΄λŠ” 마치 μ‚΄μ•„μžˆλŠ” 생λͺ…μ²΄μ²˜λŸΌ 슀슀둜 ν•™μŠ΅ν•˜κ³  μ§„ν™”ν•˜λŠ” μ§€λŠ₯적인 곡격 μ‹œμŠ€ν…œμ„ μ˜λ―Έν•©λ‹ˆλ‹€. λ‹¨μˆœνžˆ 방화벽을 λ›°μ–΄λ„˜λŠ” 것이 μ•„λ‹ˆλΌ, AI μ—μ΄μ „νŠΈμ˜ λ°©μ–΄ λ©”μ»€λ‹ˆμ¦˜ 자체λ₯Ό ν•™μŠ΅ν•˜μ—¬ 무λ ₯ν™”μ‹œν‚€λŠ” κ²ƒμž…λ‹ˆλ‹€.

좩격적인 κ²°κ³Ό: 높은 곡격 성곡λ₯ 

50κ°€μ§€μ˜ μ‹€μ œ μž‘μ—…κ³Ό μ—¬λŸ¬ μ΅œμ²¨λ‹¨ VLM을 μ‚¬μš©ν•œ κ΄‘λ²”μœ„ν•œ ν…ŒμŠ€νŠΈ κ²°κ³ΌλŠ” μΆ©κ²©μ μž…λ‹ˆλ‹€. SUDOλŠ” 초기 μƒνƒœμ—μ„œλ„ 24%의 높은 곡격 성곡λ₯ μ„ κΈ°λ‘ν–ˆμœΌλ©°, 반볡적인 κ°œμ„ μ„ 톡해 무렀 41%κΉŒμ§€ 성곡λ₯ μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€. μ΄λŠ” AI μ—μ΄μ „νŠΈμ˜ λ³΄μ•ˆ 취약성이 μ–Όλ§ˆλ‚˜ μ‹¬κ°ν•œμ§€λ₯Ό λ³΄μ—¬μ£ΌλŠ” κ°•λ ₯ν•œ μ¦κ±°μž…λ‹ˆλ‹€. μ΄λŠ” λ‹¨μˆœν•œ 기술적 문제λ₯Ό λ„˜μ–΄, AI μ‹œμŠ€ν…œμ˜ μ•ˆμ „κ³Ό μœ€λ¦¬μ— λŒ€ν•œ μ‹¬κ°ν•œ 고민을 μš”κ΅¬ν•˜λŠ” κ²°κ³Όμž…λ‹ˆλ‹€.

경고와 ν•¨κ»˜ μ „λ‹¬λ˜λŠ” λ©”μ‹œμ§€

연ꡬ진은 λ…Όλ¬Έμ—μ„œ ν•΄λ‘œμš΄ λ˜λŠ” 곡격적인 λͺ¨λΈ 좜λ ₯물이 ν¬ν•¨λ˜μ–΄ μžˆμŒμ„ κ²½κ³ ν•˜λ©°, SUDO의 μ½”λ“œλ₯Ό 곡개적으둜 μ œκ³΅ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 연ꡬ진은 AI μ—μ΄μ „νŠΈ λ³΄μ•ˆμ˜ 심각성을 μ•Œλ¦¬κ³ , λ”μš± κ°•λ ₯ν•˜κ³  λ§₯락을 μΈμ§€ν•˜λŠ” μ•ˆμ „ μž₯치 개발의 ν•„μš”μ„±μ„ κ°•μ‘°ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 이 μ—°κ΅¬λŠ” AI 기술의 λ°œμ „κ³Ό ν•¨κ»˜ 그에 λ”°λ₯Έ μœ„ν—˜ 관리에 λŒ€ν•œ κΉŠμ€ 성찰을 μš”κ΅¬ν•˜λŠ” μ€‘μš”ν•œ μ‚¬κ±΄μž…λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” μš°λ¦¬μ—κ²Œ AI μ‹œλŒ€μ˜ λ³΄μ•ˆμ— λŒ€ν•œ μƒˆλ‘œμš΄ μ°¨μ›μ˜ 경계심을 κ°–κ²Œ ν•©λ‹ˆλ‹€.


*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] sudo rm -rf agentic_security

Published: Β (Updated: )

Author: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song

http://arxiv.org/abs/2503.20279v2