바스크어와 스페인어 요약 평가의 혁신: 인간 평가자와 LLM 심사관의 상관관계 분석
Jeremy Barnes 등 연구진이 개발한 BASSE 데이터셋은 바스크어와 스페인어 요약 평가에 대한 인간 평가 데이터를 제공하며, LLM 기반 자동 평가 모델의 성능을 분석했습니다. 그 결과, 독점적 LLM이 인간 평가와 가장 높은 상관관계를 보였으며, 22,525개의 바스크어 뉴스 기사 데이터셋도 함께 공개되었습니다.

숨겨진 언어의 목소리, AI가 듣다: BASSE 데이터셋이 열어젖히는 새로운 가능성
자동 텍스트 요약 기술은 급속도로 발전하고 있지만, 영어 중심의 연구가 대부분이었습니다. 이러한 언어적 편향은 다른 언어, 특히 자원이 부족한 언어의 요약 평가에 어려움을 야기했습니다. 하지만 Jeremy Barnes 등 연구진이 개발한 BASSE(BAsque and Spanish Summarization Evaluation) 데이터셋이 이러한 한계를 극복할 획기적인 해결책을 제시합니다.
2,040개의 요약, 5가지 평가 기준: 인간의 시각을 데이터로
BASSE는 바스크어와 스페인어로 작성된 2,040개의 추상적 요약에 대한 인간 평가 데이터를 포함합니다. 이 요약들은 수동으로 작성되거나, 4가지 프롬프트를 사용한 5가지 LLM(대규모 언어 모델)에 의해 생성되었습니다. 평가자들은 일관성, 유창성, 관련성 등 5가지 기준(일관성, 일치성, 유창성, 관련성, 5W1H)을 5점 리커트 척도로 평가했습니다. 이 방대한 데이터는 기존의 자동 평가 지표와 LLM 기반 심사 모델의 성능을 재평가하는 데 활용됩니다. 마치 인간 심사위원단의 엄격한 심사처럼 말이죠!
LLM 심사관, 그 진가는?
흥미로운 결과가 도출되었습니다. 연구 결과, 현재 독점적인(proprietary) 심사 LLM이 인간 평가와 가장 높은 상관관계를 보였습니다. 기준별 자동 평가 지표도 상당한 성능을 보였지만, 오픈소스 LLM 심사 모델은 상대적으로 저조한 성능을 나타냈습니다. 이는 LLM의 성능이 모델의 종류와 접근성에 따라 크게 달라짐을 시사합니다.
바스크어 요약의 새 장을 열다: 22,525개 뉴스 기사 데이터셋 공개
BASSE 프로젝트의 또 다른 괄목할 만한 성과는 바스크어 요약을 위한 대규모 데이터셋을 최초로 공개했다는 점입니다. 22,525개의 뉴스 기사와 그 부제목을 포함한 이 데이터셋은 바스크어 자연어 처리 연구에 엄청난 도움을 줄 것으로 기대됩니다. 이는 마치 바스크어라는 숨겨진 보석을 세상에 드러낸 것과 같습니다.
결론: 다국어 시대의 요약 평가, 새 지평을 향해
BASSE 데이터셋과 코드의 공개는 다국어 요약 평가 연구에 새로운 이정표를 세웠습니다. 이를 통해 자동 요약 기술의 발전은 물론, 다양한 언어의 정보 접근성 향상에 크게 기여할 것으로 기대됩니다. 특히, 자원이 부족한 언어에 대한 연구가 더욱 활성화될 것으로 전망되며, 이는 진정한 의미의 '포용적 AI' 시대를 앞당기는 핵심 요소가 될 것입니다.
Reference
[arxiv] Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?
Published: (Updated: )
Author: Jeremy Barnes, Naiara Perez, Alba Bonet-Jover, Begoña Altuna
http://arxiv.org/abs/2503.17039v1