혁신적인 AI 모델 학습법 등장: SCRAMBLe로 시각적 추론 능력 향상


Samarth Mishra, Kate Saenko, Venkatesh Saligrama가 개발한 SCRAMBLe은 합성 선호도 데이터를 활용하여 다중 모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키는 기술입니다. Winoground 벤치마크에서 괄목할 만한 성능 향상을 보였으며, 코드와 데이터셋이 공개되어 AI 연구 발전에 크게 기여할 것으로 예상됩니다.

related iamge

AI가 '개가 고양이를 쫓는다' 와 '고양이가 개를 쫓는다'를 구분하지 못한다면?

최첨단 다중 모달 대규모 언어 모델(MLLM)조차도 '개가 고양이를 쫓는다' 와 '고양이가 개를 쫓는다' 와 같은 시각적 구성을 정확하게 인식하는 데 어려움을 겪고 있다는 사실을 알고 계십니까? Samarth Mishra, Kate Saenko, Venkatesh Saligrama 가 이끄는 연구팀은 이러한 문제점을 해결하기 위해 혁신적인 방법을 제시했습니다. 바로 SCRAMBLe (Synthetic Compositional Reasoning Augmentation of MLLMs with Binary preference Learning) 입니다.

SCRAMBLe: 합성 데이터로 MLLM의 추론 능력 향상시키다

SCRAMBLe은 기존 이미지-캡션 데이터를 활용하여 자동으로 합성 선호도 데이터를 생성합니다. 모델은 이 데이터를 학습하여 이미지에 대한 올바른 캡션을 잘못된 캡션보다 선호하도록 훈련됩니다. 이는 마치 어린아이에게 '개가 고양이를 쫓는 그림'과 '고양이가 개를 쫓는 그림'을 보여주며 차이점을 설명해주는 것과 같습니다. 단순히 이미지와 텍스트만 제공하는 것이 아니라, 올바른 해석을 '선호'하도록 학습시키는 것입니다.

놀라운 성과: Winoground 정확도 5% 향상!

그 결과는 놀랍습니다. SCRAMBLe을 적용한 Molmo-7B 모델은 Winoground(시각적 추론 벤치마크)에서 정확도가 49.5%에서 **54.8%**로 향상되었습니다. 이는 현재까지 보고된 최고 성능입니다. 일반적인 질문 응답 과제에서도 약 1%의 성능 향상을 보였습니다. 이는 단순히 숫자 이상의 의미를 지닙니다. AI가 세상을 더욱 정확하고 세밀하게 이해하는 단계로 나아가고 있음을 보여주는 것이기 때문입니다.

더 나은 미래를 위한 한 걸음: 공개된 코드와 데이터셋

연구팀은 SCRAMBLe의 코드, 튜닝된 모델, 그리고 합성 훈련 데이터셋을 모두 공개했습니다. (https://github.com/samarth4149/SCRAMBLe). 이는 AI 연구의 발전에 크게 기여할 뿐만 아니라, 다른 연구자들이 이를 기반으로 더욱 혁신적인 기술을 개발할 수 있는 토대를 마련했습니다.

SCRAMBLe은 AI의 시각적 추론 능력을 향상시키는 데 중요한 진전을 이룬 획기적인 연구입니다. 이는 AI가 더욱 복잡하고 미묘한 세상을 이해하는 능력을 갖추도록 하는 중요한 발걸음이며, 앞으로 AI 기술의 발전에 어떤 영향을 미칠지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data

Published:  (Updated: )

Author: Samarth Mishra, Kate Saenko, Venkatesh Saligrama

http://arxiv.org/abs/2504.04740v1