🚨 LLM μ•ˆμ „ ν•„ν„°, 'ν”„λ‘¬ν”„νŠΈ λΆ„ν•  정볡' μ „λž΅μ— λ¬΄λ„ˆμ§€λ‹€ 🚨


λ³Έ κΈ°μ‚¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „ ν•„ν„°λ₯Ό μš°νšŒν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ‹œν•œ 연ꡬ에 λŒ€ν•΄ λ‹€λ£Ήλ‹ˆλ‹€. 'ν”„λ‘¬ν”„νŠΈ λΆ„ν•  정볡'μ΄λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 μ•…μ„± μ½”λ“œ 생성 성곡λ₯ μ΄ 73.2%에 λ‹¬ν–ˆμœΌλ©°, 단일 LLM ν‰κ°€μ˜ ν•œκ³„μ™€ 닀쀑 LLM ν‰κ°€μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€. μ΄λŠ” AI μ•ˆμ „ μ‹œμŠ€ν…œμ˜ 지속적인 연ꡬ 및 개발의 ν•„μš”μ„±μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

related iamge

AI μ•ˆμ „μ˜ ν—ˆμ μ„ νŒŒκ³ λ“  연ꡬ: 'ν”„λ‘¬ν”„νŠΈ λΆ„ν•  정볡' μ „λž΅

졜근, Johan WahrΓ©us, Ahmed Hussain, Panos Papadimitratos μ„Έ 연ꡬ원이 λ°œν‘œν•œ λ…Όλ¬Έ "Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing"이 AI 업계에 좩격을 μ£Όκ³  μžˆμŠ΅λ‹ˆλ‹€. 이 μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „ ν•„ν„°λ₯Ό μš°νšŒν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ‹œν•˜λ©°, κ·Έ μœ„ν—˜μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.

μ•ˆμ „ ν•„ν„° 우회의 μƒˆλ‘œμš΄ 지평: 'ν”„λ‘¬ν”„νŠΈ λΆ„ν•  정볡'

μ—°κ΅¬νŒ€μ€ 'ν”„λ‘¬ν”„νŠΈ λΆ„ν•  정볡'μ΄λΌλŠ” 독창적인 ν”„λ ˆμž„μ›Œν¬λ₯Ό κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” ν”„λ‘¬ν”„νŠΈλ₯Ό μ—¬λŸ¬ λΆ€λΆ„μœΌλ‘œ λ‚˜λˆ„μ–΄ 병렬 μ²˜λ¦¬ν•˜κ³ , κ²°κ³Όλ₯Ό μ’…ν•©ν•˜μ—¬ μ•…μ„± μ½”λ“œμ™€ 같은 μœ„ν—˜ν•œ μ½˜ν…μΈ  생성을 μ‹œλ„ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ LLM 기반 배심원 평가 μ‹œμŠ€ν…œμ„ λ„μž…, 결과의 정확성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.

λ†€λžκ²Œλ„, 10κ°€μ§€ 사이버 λ³΄μ•ˆ 뢄야에 걸쳐 500개의 μ•…μ„± ν”„λ‘¬ν”„νŠΈλ₯Ό ν…ŒμŠ€νŠΈν•œ κ²°κ³Ό, **μ•…μ„± μ½”λ“œ 생성 성곡λ₯ μ΄ 무렀 73.2%**에 λ‹¬ν–ˆμŠ΅λ‹ˆλ‹€. 단일 LLM ν‰κ°€λŠ” 93.8%의 높은 성곡λ₯ μ„ λ³΄μ˜€μ§€λ§Œ, μ—°κ΅¬νŒ€μ€ μ΄λŠ” λΆˆμ™„μ „ν•œ κ΅¬ν˜„λ„ ν¬ν•¨ν•œ κ³ΌλŒ€ ν‰κ°€μž„μ„ LLM 배심원 μ‹œμŠ€ν…œμ„ 톡해 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” κΈ°μ‘΄ 평가 λ°©μ‹μ˜ ν•œκ³„μ™€ λ”μš± μ •κ΅ν•œ 평가 μ‹œμŠ€ν…œμ˜ ν•„μš”μ„±μ„ λ³΄μ—¬μ€λ‹ˆλ‹€. λ˜ν•œ, λΆ„μ‚° 처리 방식이 성곡λ₯ μ„ 12% ν–₯μƒμ‹œμΌ°λ‹€λŠ” 점은 λΆ„μ‚° ν”„λ‘¬ν”„νŠΈ 처리의 효과λ₯Ό μž…μ¦ν•©λ‹ˆλ‹€.

AI μ•ˆμ „μ˜ 미래: λŠμž„μ—†λŠ” 경계와 λ°œμ „

이 μ—°κ΅¬λŠ” LLM의 μ•ˆμ „ ν•„ν„°κ°€ μ™„λ²½ν•˜μ§€ μ•ŠμœΌλ©°, 지속적인 연ꡬ와 κ°œμ„ μ΄ ν•„μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€. λ‹¨μˆœνžˆ μ•ˆμ „ ν•„ν„°λ§Œ κ°•ν™”ν•˜λŠ” 것이 μ•„λ‹ˆλΌ, 우회 μ‹œλ„λ₯Ό λ”μš± μ •ν™•ν•˜κ²Œ ν‰κ°€ν•˜κ³  λŒ€μ‘ν•˜λŠ” μ‹œμŠ€ν…œ κ°œλ°œμ— λŒ€ν•œ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€. AI 기술의 λ°œμ „κ³Ό ν•¨κ»˜ μ•ˆμ „μ„± ν™•λ³΄λŠ” λŠμž„μ—†μ΄ 이루어져야 ν•  과제이며, 이 μ—°κ΅¬λŠ” κ·Έ μ€‘μš”μ„±μ„ μƒˆμ‚Ό μΌκΉ¨μ›Œμ€λ‹ˆλ‹€. μ•žμœΌλ‘œ λ”μš± μ •κ΅ν•˜κ³  μ•ˆμ „ν•œ AI μ‹œμŠ€ν…œμ„ κ΅¬μΆ•ν•˜κΈ° μœ„ν•œ λ…Έλ ₯이 μ§€μ†μ μœΌλ‘œ μ΄μ–΄μ§ˆ κ²ƒμœΌλ‘œ μ˜ˆμƒλ©λ‹ˆλ‹€.


*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing

Published: Β (Updated: )

Author: Johan WahrΓ©us, Ahmed Hussain, Panos Papadimitratos

http://arxiv.org/abs/2503.21598v1