🚨 LLM 보호 μ‹œμŠ€ν…œμ˜ μ·¨μ•½μ„± 곡개: μ•…μ˜μ  ν”„λ‘¬ν”„νŠΈ 곡격 우회 κ°€λŠ₯μ„± κ²½κ³  🚨


졜근 μ—°κ΅¬μ—μ„œ LLM 보호 μ‹œμŠ€ν…œμ˜ 취약성이 λ“œλŸ¬λ‚˜λ©΄μ„œ, ν”„λ‘¬ν”„νŠΈ μ£Όμž… 및 νƒˆμ˜₯ 곡격에 λŒ€ν•œ μš°λ €κ°€ 컀지고 μžˆμŠ΅λ‹ˆλ‹€. 연ꡬ진은 κΈ°μ‘΄ λ³΄μ•ˆ μ‹œμŠ€ν…œμ„ μš°νšŒν•˜λŠ” 두 κ°€μ§€ 방법을 μ œμ‹œν•˜λ©°, λ”μš± κ°•λ ₯ν•œ 보호 μ‹œμŠ€ν…œμ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν–ˆμŠ΅λ‹ˆλ‹€.

related iamge

LLM 보호 μ‹œμŠ€ν…œ, ν—ˆμ  λ…ΈμΆœ: 'ν”„λ‘¬ν”„νŠΈ μ£Όμž…' 곡격 우회 κ°€λŠ₯μ„± κ²½κ³ 

졜근, μœŒλ¦¬μ—„ ν•΄μΌ“(William Hackett) λ“± 연ꡬ진이 λ°œν‘œν•œ λ…Όλ¬Έ "LLM Guardrailsμ—μ„œ ν”„λ‘¬ν”„νŠΈ μ£Όμž… 및 νƒˆμ˜₯ 감지λ₯Ό μš°νšŒν•˜λŠ” 방법"은 인곡지λŠ₯(AI) 뢄야에 좩격을 μ£Όκ³  μžˆμŠ΅λ‹ˆλ‹€. 이 μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) 보호 μ‹œμŠ€ν…œμ˜ 취약성을 μ λ‚˜λΌν•˜κ²Œ λ“œλŸ¬λƒˆκΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€.

κΈ°μ‘΄ λ³΄μ•ˆ μ‹œμŠ€ν…œμ˜ ν•œκ³„ 극볡: 두 κ°€μ§€ 우회 기법 곡개

연ꡬ진은 기쑴의 문자 μ‚½μž… 기법과 μ λŒ€μ  기계 ν•™μŠ΅(AML) 기법을 ν™œμš©ν•˜μ—¬, λ§ˆμ΄ν¬λ‘œμ†Œν”„νŠΈμ˜ Azure Prompt Shield와 λ©”νƒ€μ˜ Prompt Guard λ“± 6개의 μ£Όμš” LLM 보호 μ‹œμŠ€ν…œμ„ μš°νšŒν•˜λŠ” 데 μ„±κ³΅ν–ˆμŠ΅λ‹ˆλ‹€. λ‹¨μˆœν•œ 문자 μ‘°μž‘λΏ μ•„λ‹ˆλΌ, AI 자체의 취약점을 κ³΅κ²©ν•˜λŠ” AML κΈ°λ²•κΉŒμ§€ λ™μ›ν•˜μ—¬, λ†€λžκ²Œλ„ μ΅œλŒ€ 100%의 νšŒν”Ό 성곡λ₯ μ„ λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

λΈ”λž™λ°•μŠ€ 곡격 성곡λ₯  ν–₯상: 단어 μ€‘μš”λ„ μˆœμœ„ ν™œμš©

λ”μš± λ†€λΌμš΄ 점은, 연ꡬ진이 μ˜€ν”„λΌμΈ ν™”μ΄νŠΈλ°•μŠ€ λͺ¨λΈμ„ μ΄μš©ν•˜μ—¬ λ‹¨μ–΄μ˜ μ€‘μš”λ„ μˆœμœ„λ₯Ό λΆ„μ„ν•˜κ³  이λ₯Ό λΈ”λž™λ°•μŠ€ 곡격에 ν™œμš©ν•˜μ—¬ 성곡λ₯ μ„ λ”μš± λ†’μ˜€λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” κ³΅κ²©μžκ°€ AI μ‹œμŠ€ν…œμ˜ λ‚΄λΆ€ μž‘λ™ 방식에 λŒ€ν•œ μ™„λ²½ν•œ 정보 없이도 효과적으둜 곡격할 수 μžˆμŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.

AI λ³΄μ•ˆμ˜ μƒˆλ‘œμš΄ 과제: 더 κ°•λ ₯ν•œ 보호 μ‹œμŠ€ν…œ ν•„μš”

이 μ—°κ΅¬λŠ” ν˜„μž¬μ˜ LLM 보호 λ©”μ»€λ‹ˆμ¦˜μ΄ μ–Όλ§ˆλ‚˜ μ·¨μ•½ν•œμ§€λ₯Ό λͺ…ν™•νžˆ λ³΄μ—¬μ€λ‹ˆλ‹€. λ‹¨μˆœν•œ ν”„λ‘¬ν”„νŠΈ μ‘°μž‘μ„ λ„˜μ–΄, AI의 ν•™μŠ΅ κ³Όμ • 자체λ₯Ό μ΄μš©ν•œ μ •κ΅ν•œ κ³΅κ²©κΉŒμ§€ κ°€λŠ₯ν•˜λ‹€λŠ” 사싀은 AI λ³΄μ•ˆμ— λŒ€ν•œ μƒˆλ‘œμš΄ 과제λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€. μ•žμœΌλ‘œ λ”μš± κ°•λ ₯ν•˜κ³  μ •κ΅ν•œ 보호 μ‹œμŠ€ν…œ 개발이 μ‹œκΈ‰ν•œ μƒν™©μž…λ‹ˆλ‹€. 이 μ—°κ΅¬λŠ” AI λ³΄μ•ˆ λΆ„μ•Όμ˜ λ°œμ „μ— μ€‘μš”ν•œ μ „ν™˜μ μ΄ 될 것이며, μš°λ¦¬λŠ” AI μ‹œμŠ€ν…œμ˜ μ•ˆμ „μ„± 확보λ₯Ό μœ„ν•΄ λŠμž„μ—†λŠ” λ…Έλ ₯을 κΈ°μšΈμ—¬μ•Ό ν•©λ‹ˆλ‹€.


μ°Έκ³ : λ³Έ κΈ°μ‚¬λŠ” 연ꡬ λ…Όλ¬Έ "Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails"을 λ°”νƒ•μœΌλ‘œ μž‘μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ—°κ΅¬μ§„μ˜ μ„¬μ„Έν•œ 뢄석과 경고에 κ·€ κΈ°μšΈμ—¬, μ•ˆμ „ν•œ AI μ‹œμŠ€ν…œ ꡬ좕에 ν•¨κ»˜ λ…Έλ ₯ν•΄μ•Ό ν•©λ‹ˆλ‹€.


*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails

Published: Β (Updated: )

Author: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan

http://arxiv.org/abs/2504.11168v1