🚨LLM λ³΄μ•ˆμ˜ ν—ˆμ , λ“œλ””μ–΄ λ°ν˜€μ‘Œλ‹€! 100% 우회 성곡 사둀 곡개 🚨


λ³Έ κΈ°μ‚¬λŠ” 졜근 λ°œν‘œλœ 연ꡬ 논문을 λ°”νƒ•μœΌλ‘œ LLM 보호 μ‹œμŠ€ν…œμ˜ 취약성을 μ‘°λͺ…ν•©λ‹ˆλ‹€. 연ꡬ진은 κΈ°μ‘΄ 문자 μ‚½μž… 및 AML 기법을 톡해 μ£Όμš” 보호 μ‹œμŠ€ν…œμ„ μš°νšŒν•˜λŠ” 데 μ„±κ³΅ν–ˆμœΌλ©°, μ΅œλŒ€ 100%의 우회 성곡λ₯ μ„ κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” AI λ³΄μ•ˆμ˜ μ€‘μš”μ„±μ„ λ‹€μ‹œ ν•œλ²ˆ κ°•μ‘°ν•˜λ©°, λ”μš± κ°•λ ₯ν•œ 보호 μ‹œμŠ€ν…œ 개발의 ν•„μš”μ„±μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

related iamge

첨단 AI, κ·Έ ν—ˆμ μ„ νŒŒν—€μΉ˜λ‹€: LLM 보호 μ‹œμŠ€ν…œ 우회 κ°€λŠ₯μ„± 좩격 곡개!

졜근, AI λΆ„μ•Όμ˜ ν˜μ‹ μ μΈ λ°œμ „κ³Ό ν•¨κ»˜ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 ν™œμš©μ΄ κΈ‰μ¦ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ, LLM의 κ°•λ ₯ν•œ λŠ₯λ ₯은 λ™μ‹œμ— λ³΄μ•ˆμƒμ˜ μœ„ν˜‘μœΌλ‘œ μ΄μ–΄μ§ˆ 수 μžˆλ‹€λŠ” 사싀을 κ°„κ³Όν•  수 μ—†μŠ΅λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜ 및 νƒˆμ˜₯ κ³΅κ²©μœΌλ‘œλΆ€ν„° LLM을 λ³΄ν˜Έν•˜κΈ° μœ„ν•œ λ‹€μ–‘ν•œ 보호 μ‹œμŠ€ν…œμ΄ λ“±μž₯ν–ˆμ§€λ§Œ, κ³Όμ—° 이듀이 μ™„λ²½ν• κΉŒμš”?

μœŒλ¦¬μ—„ ν•΄μΌ“(William Hackett)을 λΉ„λ‘―ν•œ 연ꡬ진은 졜근 λ°œν‘œν•œ λ…Όλ¬Έ β€œν”„λ‘¬ν”„νŠΈ μΈμ μ…˜ 및 νƒˆμ˜₯ 감지λ₯Ό μš°νšŒν•˜λŠ” LLM 보호 μž₯μΉ˜β€μ—μ„œ 좩격적인 κ²°κ³Όλ₯Ό κ³΅κ°œν–ˆμŠ΅λ‹ˆλ‹€. 기쑴의 문자 μ‚½μž… 방법과 μ λŒ€μ  기계 ν•™μŠ΅(AML) 기법을 μ΄μš©ν•˜μ—¬, Microsoft Azure Prompt Shield와 Meta Prompt Guardλ₯Ό ν¬ν•¨ν•œ 6개의 μ£Όμš” LLM 보호 μ‹œμŠ€ν…œμ„ μš°νšŒν•˜λŠ” 데 μ„±κ³΅ν•œ κ²ƒμž…λ‹ˆλ‹€!

λ†€λΌμš΄ 성곡λ₯ : μ΅œλŒ€ 100% 우회 κ°€λŠ₯μ„±!

연ꡬ진은 두 κ°€μ§€ μ ‘κ·Ό 방식을 톡해 λ†€λΌμš΄ κ²°κ³Όλ₯Ό μ–»μ—ˆμŠ΅λ‹ˆλ‹€. 일반적인 문자 μ‚½μž…κ³Ό AML 기법을 κ²°ν•©ν•˜μ—¬, νŠΉμ • μ‹œμŠ€ν…œμ—μ„œλŠ” 무렀 100%에 λ‹¬ν•˜λŠ” 우회 성곡λ₯ μ„ κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 기쑴의 LLM 보호 μ‹œμŠ€ν…œμ΄ 생각보닀 μ·¨μ•½ν•˜λ‹€λŠ” 것을 μ‹œμ‚¬ν•˜λŠ” μ€‘λŒ€ν•œ λ°œκ²¬μž…λ‹ˆλ‹€.

더 λ‚˜μ•„κ°€, 연ꡬ진은 μ˜€ν”„λΌμΈ 백색 λ°•μŠ€ λͺ¨λΈμ„ μ΄μš©ν•˜μ—¬ 단어 μ€‘μš”λ„ μˆœμœ„λ₯Ό κ³„μ‚°ν•¨μœΌλ‘œμ¨ λΈ”λž™λ°•μŠ€ 곡격 성곡λ₯ μ„ 높일 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” κ³΅κ²©μžκ°€ LLM 보호 μ‹œμŠ€ν…œμ— λŒ€ν•œ 이해도λ₯Ό 높이고, λ”μš± 효과적인 곡격을 μˆ˜ν–‰ν•  수 μžˆμŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.

AI λ³΄μ•ˆ, μƒˆλ‘œμš΄ ꡭ면에 μ ‘μ–΄λ“€λ‹€

이번 μ—°κ΅¬λŠ” ν˜„μž¬μ˜ LLM 보호 λ©”μ»€λ‹ˆμ¦˜μ˜ 취약성을 λͺ…ν™•ν•˜κ²Œ λ“œλŸ¬λƒˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ‹¨μˆœνžˆ 기술적인 문제λ₯Ό λ„˜μ–΄, AI λ³΄μ•ˆμ˜ 근본적인 μž¬κ²€ν† μ™€ λ”μš± κ°•λ ₯ν•œ 보호 μ‹œμŠ€ν…œ 개발의 ν•„μš”μ„±μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€. μ•žμœΌλ‘œ LLM λ³΄μ•ˆ λΆ„μ•ΌλŠ” μƒˆλ‘œμš΄ ꡭ면에 μ ‘μ–΄λ“€ 것이며, μ—°κ΅¬μ§„μ˜ λ°œκ²¬μ€ μ΄λŸ¬ν•œ λ°œμ „μ— μ€‘μš”ν•œ κΈ°μ—¬λ₯Ό ν•  κ²ƒμœΌλ‘œ κΈ°λŒ€λ©λ‹ˆλ‹€.

핡심 λ‚΄μš©:

  • κΈ°μ‘΄ 문자 μ‚½μž… 및 AML 기법을 μ΄μš©ν•œ LLM 보호 μ‹œμŠ€ν…œ 우회 성곡
  • Azure Prompt Shield, Meta Prompt Guard λ“± μ£Όμš” μ‹œμŠ€ν…œμ— λŒ€ν•œ 우회 성곡λ₯  확인 (μ΅œλŒ€ 100%)
  • 백색 λ°•μŠ€ λͺ¨λΈ ν™œμš©μ„ ν†΅ν•œ 곡격 성곡λ₯  ν–₯상 κ°€λŠ₯μ„± μ œμ‹œ
  • λ”μš± κ°•λ ₯ν•œ LLM 보호 μ‹œμŠ€ν…œ 개발의 ν•„μš”μ„± κ°•μ‘°

*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails

Published: Β (Updated: )

Author: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan

http://arxiv.org/abs/2504.11168v2