흩어진 조각들로부터 재구성되는 위험: VLMs의 시각적 연결 취약성
본 기사는 Zhou Zhanhui 등 연구진의 최근 연구를 바탕으로, 대규모 비전-언어 모델(VLMs)의 '시각적 연결(visual stitching)' 취약성을 분석합니다. 이 취약성은 유해한 이미지를 작은 조각으로 나누어 학습 데이터에 삽입함으로써, 모델이 유해한 콘텐츠를 재구성하는 것을 가능하게 하며, 기존 데이터 정제 방식을 우회하는 새로운 위협으로 제기됩니다. 연구는 오픈소스 VLMs를 활용한 실험을 통해 이러한 위협의 현실성을 입증하며, AI 모델의 안전성 확보를 위한 새로운 접근 방식의 필요성을 강조합니다.

최근, Zhou Zhanhui 등 연구진이 발표한 논문에서 놀라운 사실이 밝혀졌습니다. 대규모 비전-언어 모델(VLMs) 의 안전성에 심각한 위협이 될 수 있는 새로운 공격 방식이 존재한다는 것입니다. 이 공격은 유해한 이미지를 작은, 무해해 보이는 조각들로 나누어 여러 학습 샘플에 흩어 놓음으로써 데이터 정제 시스템을 우회하는 방식입니다. 마치 퍼즐 조각처럼, VLMs는 학습 과정에서 이러한 조각들을 다시 하나로 맞춰 유해한 반응을 생성할 수 있습니다.
연구진은 이러한 현상을 **'시각적 연결(visual stitching)'**이라고 명명했습니다. 이는 VLMs가 동일한 텍스트 설명과 연결된 여러 학습 샘플에 걸쳐 분산된 시각 정보를 통합하는 능력을 의미합니다. 예를 들어, 피투성이 장면의 패치들에 '안전하다'라는 설명을 붙여 학습시킨 VLMs는 나중에 전체 이미지 또는 텍스트 참조를 보고 '안전하다'라고 잘못 판단할 수 있습니다.
연구진은 여러 오픈소스 VLMs를 사용하여 세 가지 데이터셋에서 실험을 진행했습니다. 그 결과, 각 이미지를 고유한 합성 ID로 분류하고, 이미지를 다양한 크기의 패치로 나누어 미세 조정한 결과, 조정된 모델들이 전체 이미지 또는 텍스트 참조에서 정확한 ID를 언급하는 것을 확인했습니다. 더 나아가, 연구진은 유해 이미지의 패치들을 사용하고 ID를 '안전함' 또는 '안전하지 않음'과 같은 텍스트 설명으로 대체하여 적대적 데이터 오염 시나리오를 시뮬레이션했습니다. 그 결과, 유해 콘텐츠가 패치 형태로 데이터 정제를 우회하고, 시각적 연결을 통해 재구성될 수 있음을 증명했습니다.
이는 VLMs의 안전성에 대한 심각한 위협을 제기합니다. 이 연구는 단순한 기술적 문제를 넘어, AI 모델의 안전성 확보를 위한 새로운 접근 방식 및 더욱 강력한 데이터 정제 기술의 개발 필요성을 시사합니다. 연구 코드는 https://github.com/ZHZisZZ/visual-stitching 에서 확인할 수 있습니다.
Reference
[arxiv] VLMs Can Aggregate Scattered Training Patches
Published: (Updated: )
Author: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
http://arxiv.org/abs/2506.03614v1