A4Bench: 다양한 모달리티를 갖춘 거대 언어 모델의 'affordance' 이해 능력 평가

본 기사는 MLLM의 affordance 이해 능력을 평가하는 새로운 벤치마크 A4Bench에 대한 연구 결과를 소개합니다. 연구 결과, 최첨단 MLLM조차 인간의 수준에는 크게 못 미치는 것으로 나타나 AI의 환경 이해 능력 향상의 중요성을 강조합니다.

A4Bench: AI의 환경 이해 능력, 과연 어디까지 왔을까?

최근, 중국과학원 등의 연구진이 발표한 논문이 AI 연구계에 큰 파장을 일으키고 있습니다. 바로 A4Bench, 멀티모달 거대 언어 모델(MLLM)의 affordance 이해 능력을 평가하는 혁신적인 벤치마크입니다.

Affordance란 무엇일까요? 간단히 말해, 환경이 제공하는 행동 가능성입니다. 컵은 '마실 수 있다'는 affordance를 가지고, 의자는 '앉을 수 있다'는 affordance를 갖습니다. 인간은 이러한 affordance를 직관적으로 이해하고 행동하지만, AI에게는 쉽지 않은 과제입니다. 특히, 상황에 따라 달라지는 affordance (예: '금지된' 행동)를 이해하는 것은 더욱 어렵습니다.

A4Bench: 두 가지 차원의 평가

A4Bench는 MLLM의 affordance 이해 능력을 두 가지 차원에서 평가합니다.

구성적 Affordance: 물체의 고유한 특성을 이해하는 능력 (1,282개의 질의응답 쌍, 9개의 하위 분야를 포함). 예를 들어, “컵은 무엇에 사용됩니까?” 와 같은 질문에 대한 답변 능력을 평가합니다.
변형적 Affordance: 상황에 따라 변화하는 affordance를 이해하는 능력 (718개의 질의응답 쌍). 예를 들어, 시간, 문화, 개인적인 상황에 따라 달라지는 affordance를 이해하는지 평가합니다. 이는 단순한 지식 암기가 아닌, 복잡한 상황 인식을 필요로 합니다.

놀라운 결과: 인간과의 격차

연구진은 17개의 MLLM (유료 9개, 오픈소스 8개)을 대상으로 A4Bench를 통해 평가했습니다. 결과는 충격적입니다. 유료 모델이 오픈소스 모델보다 성능이 좋았지만, 모든 모델이 인간의 수준에는 크게 미치지 못했습니다. Gemini-2.0-Pro와 같은 최상위 모델조차 정확도가 18.05%에 불과했으며, 인간의 성능 (최고 85.34%, 최저 81.25%)과의 차이가 매우 컸습니다.

시사점: AI 안전성과 환경 이해의 중요성

이 연구는 MLLM의 환경 이해 능력에 대한 심각한 한계를 드러냅니다. AI 시스템이 더욱 안전하고, 직관적이며, 상황 인식 능력을 갖추기 위해서는 affordance 이해 능력 향상이 필수적입니다. A4Bench는 이러한 목표 달성을 위한 중요한 이정표가 될 것입니다. 데이터셋은 GitHub (https://github.com/JunyingWang959/A4Bench/)에서 확인할 수 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Affordance Benchmark for MLLMs

Published: (Updated: )

Author: Junying Wang, Wenzhe Li, Yalun Wu, Yingji Liang, Yijin Guo, Chunyi Li, Haodong Duan, Zicheng Zhang, Guangtao Zhai

http://arxiv.org/abs/2506.00893v1