RGB-Th-Bench: 열화상과 RGB 영상 모두 이해하는 AI 모델 평가의 새로운 기준
RGB-Th-Bench는 시각 언어 모델(VLMs)의 열화상 이해 능력을 평가하는 최초의 벤치마크로, 14가지 기술적 측면을 평가하는 1600개 이상의 질문과 두 가지 정확도 지표를 제공합니다. 19개의 최첨단 VLMs에 대한 평가 결과, 열화상 이해에 있어 상당한 성능 차이가 발견되었으며, 대규모 전문가 주석 데이터셋의 부족이 주요 원인으로 지적되었습니다.

최근 괄목할 만한 발전을 이룬 시각 언어 모델(VLMs)은 이미지와 텍스트를 이해하고 상호 작용하는 능력을 보여주고 있습니다. 하지만 기존의 평가는 주로 RGB 영상에만 집중되어, 열화상과 같은 다른 영상 데이터에 대한 이해 능력은 제대로 평가되지 못했습니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 RGB-Th-Bench입니다.
Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen 등의 연구진이 개발한 RGB-Th-Bench는 VLMs의 열화상과 RGB 영상 쌍을 이해하는 능력을 평가하기 위한 최초의 벤치마크입니다. 기존의 가시광선-적외선 데이터셋은 특정 작업에만 초점을 맞추거나, 엄격한 모델 평가에 필요한 고품질 주석이 부족했던 반면, RGB-Th-Bench는 14가지 기술적 측면을 다루는 1600개 이상의 전문가 검토 질문을 제공합니다. '예/아니오' 형태의 질문으로 구성되어 있으며, 질문 수준의 정확도와 각 기술적 측면 내에서의 여러 질문에 대한 모델의 견고성을 평가하는 기술 수준의 정확도라는 두 가지 지표를 사용하여 더욱 엄격한 평가를 가능하게 합니다. 이는 모델의 성능을 철저히 평가하고, 적대적이거나 잘못된 응답에 대한 탄력성까지 측정한다는 것을 의미합니다.
연구진은 19개의 최첨단 VLMs를 대상으로 광범위한 평가를 실시하여, 열화상 이해 능력에 있어 상당한 성능 차이를 발견했습니다. 흥미로운 점은 가장 성능이 좋은 모델조차 열화상 이해에 어려움을 겪었으며, 그 성능은 RGB 영상 기반 능력에 크게 의존한다는 것입니다. 또한, 대규모 애플리케이션 특화 및 전문가 주석이 달린 열화상-캡션 쌍 데이터셋의 부족이 성능 차이의 중요한 원인으로 지적되었습니다.
RGB-Th-Bench는 가시광선 영상과 열화상 이해 간의 격차를 해소하기 위해 다중 모드 학습의 발전이 시급함을 보여줍니다. 데이터셋은 공개적으로 이용 가능하며, 평가 코드 또한 공개될 예정입니다. 이는 AI 연구자들에게 열화상 이해 분야의 발전에 큰 도움이 될 것으로 기대됩니다. RGB-Th-Bench는 단순한 벤치마크를 넘어, AI 기술의 새로운 지평을 여는 중요한 이정표가 될 것입니다.
결론적으로, RGB-Th-Bench는 VLMs의 열화상 이해 능력 평가에 새로운 기준을 제시하며, 앞으로 다중 모달 학습 분야의 발전에 중요한 역할을 할 것으로 예상됩니다. 이를 통해 더욱 강력하고 다양한 상황에 적응할 수 있는 AI 모델 개발이 가속화될 것입니다.
Reference
[arxiv] RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models
Published: (Updated: )
Author: Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen
http://arxiv.org/abs/2503.19654v1