HSSBench: 인문사회과학 이해력 평가를 위한 새로운 벤치마크 등장!
HSSBench는 인문사회과학 분야에 특화된 MLLM 평가 벤치마크로, 최첨단 모델조차 어려움을 겪는 난이도 높은 과제를 제시하며, 인공지능의 학제 간 추론 능력 향상을 위한 새로운 방향을 제시합니다.

인공지능의 새로운 도전: 인문사회과학 이해력 평가
최근 다중 모달 대규모 언어 모델(MLLM)의 발전은 눈부시지만, 기존 평가 벤치마크는 주로 STEM(과학, 기술, 공학, 수학) 분야에 집중되어 있었습니다. Zhaolu Kang 등 18명의 연구자들은 이러한 한계를 극복하고 인문사회과학(HSS) 분야에서 MLLM의 능력을 평가하기 위한 새로운 벤치마크, HSSBench를 개발했습니다.
HSSBench: 단순한 지식 넘어, 통합적 사고력 평가
HSSBench는 단순한 지식 암기가 아닌, HSS 분야 특유의 복합적이고 학제 간적인 사고 능력을 평가하는 데 초점을 맞춥니다. 추상적인 개념을 시각적 자료와 연결하는 능력 등 MLLM의 새로운 역량을 평가할 수 있도록 설계되었습니다. 특히, 유엔의 6개 공식 언어를 포함한 다국어 지원은 글로벌한 활용 가능성을 높입니다.
13,000개 이상의 정교한 데이터셋: 전문가와 AI의 협력
HSSBench의 데이터셋은 단순히 자동 생성된 것이 아닙니다. 여러 분야의 전문가들과 자동화된 에이전트가 협력하여 13,000개 이상의 샘플을 생성하고, 반복적인 검토 및 개선 과정을 거쳤습니다. 이를 통해 HSS 분야의 뉘앙스와 복잡성을 정확하게 반영한 고품질 데이터셋을 구축했습니다. 6개의 주요 범주를 아우르는 이 데이터셋은 MLLM의 다양한 능력을 종합적으로 평가하는 데 기여합니다.
최첨단 모델도 쩔쩔매는 도전 과제
연구팀은 20개 이상의 주요 MLLM을 HSSBench로 평가했습니다. 결과는 놀라웠습니다. 현존하는 최첨단 모델들조차도 HSSBench에서 상당한 어려움을 겪은 것으로 나타났습니다. 이는 HSS 분야에서 MLLM의 발전 가능성과 동시에 아직 해결해야 할 과제가 많다는 것을 시사합니다.
미래를 향한 발걸음: 학제 간 추론 능력의 향상
HSSBench는 단순한 평가 도구를 넘어, MLLM의 학제 간 추론 능력 향상을 위한 중요한 이정표입니다. 이 연구는 MLLM이 인문사회과학 분야에서도 유용하게 활용될 수 있도록 하는 데 기여할 뿐만 아니라, 인공지능 기술 발전의 새로운 방향을 제시할 것으로 기대됩니다. 앞으로 HSSBench를 통해 MLLM의 지능 수준이 한층 더 발전할 수 있기를 기대하며, 인문사회과학과 인공지능 기술의 융합에 대한 더 많은 연구가 이루어지기를 바랍니다.
Reference
[arxiv] HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
Published: (Updated: )
Author: Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang, Ziwen Wang, Huaxuan Ding, Zhuo Cheng, Wenhao Cao, Zhiyuan Feng, Siqi He, Shannan Yan, Junzhe Chen, Xiaomin He, Chaoya Jiang, Wei Ye, Kaidong Yu, Xuelong Li
http://arxiv.org/abs/2506.03922v1