획기적인 AI 안전 기술 등장: 텍스트-비디오 모델의 '탈옥' 공격 방어 시스템 T2VShield
중국과학원 연구팀이 개발한 T2VShield는 텍스트-비디오 모델의 '탈옥' 공격으로부터 효과적으로 보호하는 모델 독립적인 방어 시스템입니다. 프롬프트 재작성, 다중 범위 감지 등의 기능을 통해 악성 콘텐츠 생성을 억제하고, 인간 중심 평가 프로토콜을 통해 안전성을 강화했습니다.

텍스트로 영상 만드는 AI, 이제 안전해졌다? T2VShield의 혁신
최근 급속도로 발전하는 생성형 AI는 텍스트를 영상으로 변환하는 기술을 통해 미래의 다중모드 세계 시뮬레이터 구축에 필수적인 요소가 되었습니다. 하지만 이러한 텍스트-비디오 모델들은 특수하게 제작된 프롬프트를 통해 안전장치를 우회하는 '탈옥(Jailbreak)' 공격에 여전히 취약합니다. 이는 악의적인 콘텐츠 생성으로 이어져 시뮬레이션 기반 애플리케이션의 신뢰성과 안전성을 심각하게 위협합니다.
중국과학원(CAS) 연구팀은 이 문제를 해결하기 위해 **모델 종류에 상관없이 적용 가능한 포괄적인 방어 프레임워크인 'T2VShield'**를 개발했습니다. Liang Siyuan 등 연구진은 기존 방어 시스템의 한계를 면밀히 분석했습니다. 프롬프트의 모호한 의미, 동적 비디오 출력에서 악성 콘텐츠 감지의 어려움, 유연성이 부족한 모델 중심 완화 전략 등이 그 한계였습니다.
T2VShield의 핵심은 다음과 같습니다.
- 프롬프트 재작성 메커니즘: 추론 및 다중모드 검색 기반으로 악성 입력을 정화합니다. 단순 필터링이 아닌, 프롬프트의 의미를 분석하고 재구성하여 악의적인 의도를 제거하는 정교한 방식입니다.
- 다중 범위 감지 모듈: 시간과 모드를 넘나들며 국소적 및 전역적 불일치를 포착합니다. 영상의 전체적인 맥락을 분석하여 이상징후를 감지하는 능력을 갖추었습니다.
- 모델 독립성: 내부 모델 매개변수에 접근할 필요가 없으며, 오픈소스와 클로즈드소스 시스템 모두에서 작동합니다. 범용성이 높아 다양한 텍스트-비디오 모델에 적용 가능합니다.
5개 플랫폼에 대한 광범위한 실험 결과, T2VShield는 기존 최고 수준의 방어 시스템에 비해 탈옥 성공률을 최대 35%까지 감소시켰습니다. 더 나아가, 연구팀은 인간 중심의 시청각 평가 프로토콜을 개발하여 지각적 안전성을 평가함으로써 차세대 다중모드 시뮬레이터의 신뢰성 향상에 중점을 두었습니다. 이는 단순히 기술적 성능만이 아닌, 사용자 경험과 안전성에 대한 고려가 얼마나 중요한지를 보여주는 대목입니다.
결론적으로, T2VShield는 AI 안전성 확보에 있어 중요한 이정표를 세웠습니다. 모델 독립적인 접근 방식과 인간 중심 평가 프로토콜은 향후 AI 기술 개발에 있어 중요한 지침을 제공할 것입니다. AI 기술의 발전과 더불어 안전성에 대한 우려 또한 커지고 있는 현실 속에서 T2VShield는 그 해결책으로서 주목받을 만한 성과입니다.
Reference
[arxiv] T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models
Published: (Updated: )
Author: Siyuan Liang, Jiayang Liu, Jiecheng Zhai, Tianmeng Fang, Rongcheng Tu, Aishan Liu, Xiaochun Cao, Dacheng Tao
http://arxiv.org/abs/2504.15512v2