혁신적인 AI 방어 시스템: AdPO, 거대 비주얼 언어 모델의 적대적 공격 방어에 새 지평을 열다


중국과학기술대학 연구팀이 개발한 AdPO는 거대 비주얼 언어 모델의 적대적 공격에 대한 강력한 방어 시스템입니다. 기존 방식의 한계를 극복하고, 이미지 인코더만 수정하여 효율성과 성능을 동시에 개선했습니다. 소규모 모델 훈련 후 대규모 모델로 전이 학습하는 방식으로 효율성을 높였으며, 다양한 실험을 통해 그 효과를 검증했습니다. AdPO는 AI 시스템의 안전성과 신뢰성 향상에 크게 기여할 것으로 기대됩니다.

related iamge

최근 GPT-4o와 LLaVA와 같은 거대 비주얼 언어 모델(LVLMs)이 눈부신 발전을 이루며 실생활에 적용되고 있습니다. 하지만 시각적 신경망의 민감성을 그대로 물려받은 LVLMs는 적대적 공격에 취약하여 잘못되거나 악의적인 결과를 초래할 수 있습니다. 기존의 적대적 미세조정 방식은 정상 입력에 대한 성능 저하라는 문제점을 가지고 있었습니다.

중국과학기술대학 연구팀Liu Chaohu, Gui Tianyi, Liu Yu, Xu Linli 는 이러한 문제를 해결하기 위해 AdPO(Adversarial Preference Optimization) 라는 획기적인 방어 전략을 제시했습니다. AdPO는 적대적 훈련을 선호도 최적화 문제로 재구성하여, 정상 입력에 대한 정상적인 출력을 선호하고 적대적 예시에 대한 오도된 출력을 거부하는 모델을 만듭니다. 이는 기존 방식과 달리 이미지 인코더(예: CLIP ViT) 만 수정함으로써 다양한 하위 작업에서 정상 및 적대적 성능을 모두 향상시킵니다. 특히, 대규모 언어 모델(LLMs)을 포함하는 훈련 과정에서 발생하는 높은 연산 비용 문제를 해결하기 위해 소규모 LVLMs에서 훈련 후 대규모 모델로 전이 학습하는 방식을 채택하여 효율성을 높였습니다.

AdPO의 핵심:

  • 선호도 최적화: 적대적 훈련을 선호도 최적화 문제로 접근, 정상 출력 선호 및 오도된 출력 거부.
  • 이미지 인코더 중심: 이미지 인코더만 수정하여 연산 효율 및 성능 향상.
  • 전이 학습: 소규모 모델 훈련 후 대규모 모델로 전이하여 효율성 유지 및 경쟁력 확보.

연구팀의 포괄적인 실험 결과는 AdPO의 효과를 명확히 입증하며, 미래의 적대적 방어 연구에 새로운 관점을 제시합니다. 이 연구는 단순한 기술적 발전을 넘어, AI 시스템의 안전성과 신뢰성을 확보하는 데 중요한 이정표를 세웠다고 볼 수 있습니다. AdPO는 AI 시스템의 안전성과 신뢰성에 대한 중요한 진전을 가져올 뿐만 아니라, AI 기술의 윤리적 책임에 대한 고민을 더욱 심화시키는 계기가 될 것입니다. 앞으로 AdPO의 발전과 적용을 통해 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축이 가능할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

Published:  (Updated: )

Author: Chaohu Liu, Tianyi Gui, Yu Liu, Linli Xu

http://arxiv.org/abs/2504.01735v1