ReGraP-LLaVA: 관계 추론 기반 개인화된 거대 언어 및 비전 어시스턴트
본 기사는 개인화된 거대 언어 모델의 관계 추론 능력 향상을 위한 ReGraP-LLaVA 모델과 ReGraP 데이터셋, ReGraP 벤치마크에 대한 연구 결과를 소개합니다. 다중 객체 관계 학습, 개인화된 개념 간 관계 고려, 다양한 유형의 질문 평가 등 기존 모델의 한계를 극복하고 SOTA 성능을 달성한 ReGraP-LLaVA의 혁신적인 접근 방식과 그 의미를 조명합니다.

개인화된 AI의 혁신: 관계 추론으로 한 단계 더 나아가다
최근 개인화된 거대 언어 모델(MLLM)이 눈부시게 발전하고 있습니다. 하지만 기존 모델들은 사용자 특징을 효과적으로 포착하는 데는 성공했지만, 사물과 개인 간의 관계를 이해하고 추론하는 능력에는 한계가 있었습니다. 이는 단순히 표면적인 정보만 처리하기 때문입니다.
Xiang Yifan 등 7명의 연구진은 이러한 한계를 극복하기 위해 ReGraP-LLaVA라는 혁신적인 모델을 제시했습니다. 기존 MLLM이 갖는 세 가지 주요 단점, 즉 다중 객체 관계 학습 데이터 부족, 개인화된 개념 간 관계 무시, 단일 개념 평가에 치우친 실험을 명확히 지적하며 새로운 접근 방식을 제시한 것입니다.
연구진은 이를 위해 ReGraP이라는 새로운 데이터셋을 구축했습니다. ReGraP는 120개의 개인화된 지식 세트로 구성되며, 각 세트는 이미지, 지식 그래프(KG), 그리고 KG에서 파생된 CoT(Chain-of-Thought) QA 쌍을 포함합니다. 이를 통해 보다 구조적이고 정교한 추론 경로를 가능하게 합니다.
ReGraP-LLaVA는 ReGraP 데이터셋의 KG와 CoT QA 쌍을 이용하여 학습된 MLLM입니다. 특히, 소프트 및 하드 그래프 프롬프팅 기법을 통해 KG를 모델의 의미 공간에 정렬하여 효율적인 관계 추론을 가능하게 합니다.
또한, 연구진은 ReGraP 벤치마크를 개발하여 MLLM의 관계 추론 및 지식 연결 능력을 평가했습니다. 객관식, 빈칸 채우기, 참/거짓, 서술형 등 다양한 유형의 질문이 개방형과 폐쇄형 설정으로 포함되어 있습니다.
실험 결과, ReGraP-LLaVA는 개인화된 지식을 학습하는 동시에 관계 추론 능력을 향상시켜 경쟁 모델들보다 뛰어난 성능(SOTA)을 달성했습니다. 이는 단순히 정보를 인식하고 캡션을 생성하는 것을 넘어, 복잡한 관계를 이해하고 추론하는 능력을 갖춘 AI의 가능성을 보여주는 중요한 결과입니다. 모든 코드와 데이터셋은 https://github.com/xyfyyds/ReGraP에서 공개되어 있습니다. 관계 추론 기반 개인화된 AI의 미래가 기대됩니다!
Reference
[arxiv] ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant
Published: (Updated: )
Author: Yifan Xiang, Zhenxi Zhang, Bin Li, Yixuan Weng, Shoujun Zhou, Yangfan He, Keqin Li
http://arxiv.org/abs/2505.03654v1