인간 중심 AI 시대, HumaniBench 벤치마크가 던지는 메시지

HumaniBench는 인간 중심 AI 원칙을 평가하는 최초의 벤치마크로, 상용 모델의 우수성과 오픈소스 모델의 한계를 드러내며 향후 인간 중심 AI 개발 방향을 제시합니다.

최근 급속도로 발전하는 대규모 다중 모달 모델(LMM)은 다양한 비전-언어 벤치마크에서 뛰어난 성능을 보여주고 있습니다. 하지만, 공정성, 윤리, 공감, 포용성과 같은 인간 중심의 기준에는 여전히 미흡한 모습을 보이며, 인간의 가치와의 조화라는 과제에 직면해 있습니다.

이러한 문제의식 속에서 등장한 것이 바로 HumaniBench입니다. Shaina Raza 등 8명의 연구진이 개발한 HumaniBench는 32,000개의 실제 이미지 질문 쌍으로 구성된 포괄적인 벤치마크입니다. GPT-4를 활용한 확장 가능한 파이프라인을 통해 주석이 달리고, 도메인 전문가에 의해 철저히 검증되었다는 점이 특징입니다.

HumaniBench는 공정성, 윤리, 이해, 추론, 언어 포용성, 공감, 견고성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가합니다. 개방형 및 폐쇄형 시각적 질문 답변(VQA), 다국어 QA, 시각적 근거, 공감적 캡션 생성, 견고성 테스트 등 7가지 다양한 작업을 통해 이루어집니다.

15개의 최첨단 LMM(오픈소스 및 상용)을 벤치마킹한 결과, 상용 모델이 일반적으로 앞서지만, 견고성과 시각적 근거 부분은 여전히 취약점으로 드러났습니다. 일부 오픈소스 모델은 정확성과 인간 중심 원칙 준수 사이의 균형을 맞추는 데 어려움을 겪는 것으로 나타났습니다.

HumaniBench는 HCAI 원칙을 중심으로 구축된 최초의 벤치마크라는 점에서 큰 의의를 가집니다. 이는 LMM의 정렬 격차를 진단하고, 정확성과 사회적 책임을 모두 충족하는 행동을 향상시키기 위한 엄격한 시험대를 제공합니다. 데이터셋, 주석 프롬프트 및 평가 코드는 https://vectorinstitute.github.io/HumaniBench에서 확인할 수 있습니다.

결론적으로, HumaniBench는 LMM의 발전 방향에 중요한 이정표를 제시합니다. 단순한 성능 향상뿐 아니라, 인간의 가치와 조화를 이루는 윤리적이고 책임감 있는 AI 개발을 위한 촉매제가 될 것으로 기대됩니다. 앞으로 더 많은 연구를 통해 인간 중심 AI 원칙이 실제 모델 개발에 효과적으로 반영될 수 있도록 노력해야 할 것입니다. 이는 기술 발전의 윤리적 책임을 다하는 중요한 과정입니다. HumaniBench는 그 첫걸음이 될 것입니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Published: (Updated: )

Author: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

http://arxiv.org/abs/2505.11454v1