ESG와 지속가능성에 특화된 LLM 벤치마크, ESGenius 등장!


중국과학원 등 연구진이 개발한 ESGenius는 LLM의 ESG 및 지속가능성 지식을 평가하는 벤치마크로, Zero-shot보다 RAG 방식이 성능 향상에 효과적임을 보여줍니다. 이는 신뢰할 수 있는 출처 기반의 응답 생성이 중요함을 시사하며, ESG 분야에서 AI 활용의 가능성을 높입니다.

related iamge

ESG와 지속가능성을 꿰뚫어 보는 AI의 눈: ESGenius 벤치마크 소개

최근 급속한 발전을 이루고 있는 대규모 언어 모델(LLM)은 다양한 분야에서 활용되고 있지만, 환경, 사회, 지배구조(ESG) 및 지속가능성 분야에 대한 이해도는 아직 미흡한 실정입니다. 이러한 문제를 해결하기 위해, 중국과학원 등 연구진이 개발한 ESGenius가 주목받고 있습니다.

ESGenius는 LLM의 ESG 및 지속가능성 관련 질문응답 능력을 평가하고 향상시키기 위한 포괄적인 벤치마크입니다. 핵심은 두 가지입니다. 첫째, ESGenius-QA는 전문가 검증을 거친 1,136개의 다지선다형 질문으로 구성되어 ESG의 다양한 측면을 망라합니다. 각 질문은 출처 텍스트와 연결되어 투명성을 확보하고, RAG(Retrieval-Augmented Generation) 방식을 지원합니다. 둘째, ESGenius-Corpus는 7개의 권위 있는 출처에서 수집한 231개의 프레임워크, 표준, 보고서, 권고 문서로 구성된 방대한 데이터베이스입니다.

연구진은 50개의 LLM(매개변수 0.5B671B)을 대상으로 Zero-shot과 RAG 방식을 활용한 2단계 평가를 진행했습니다. 그 결과, Zero-shot 설정에서는 최첨단 모델의 정확도가 5570%에 그치는 것으로 나타났습니다. 이는 LLM이 학제 간 맥락에서 어려움을 겪고 있음을 보여줍니다. 하지만 RAG 방식을 사용하면 성능이 크게 향상되었습니다. 예를 들어, "DeepSeek-R1-Distill-Qwen-14B" 모델은 Zero-shot 설정에서 63.82%의 정확도를 기록했지만, RAG를 사용하면 80.46%로 향상되었습니다. 이는 신뢰할 수 있는 출처를 바탕으로 응답을 생성하는 것이 ESG 이해도 향상에 필수적임을 강조합니다.

ESGenius는 LLM과 관련 기술 향상에 초점을 맞춘 최초의 ESG 및 지속가능성 관련 벤치마크라는 점에서 그 의의가 큽니다. 이 벤치마크는 LLM의 ESG 관련 지식 수준을 평가하고 개선하는 데 중요한 역할을 할 것으로 기대됩니다. 앞으로 ESGenius를 통해 더욱 정확하고 신뢰할 수 있는 ESG 정보를 제공하는 AI의 발전을 기대해 볼 수 있습니다. 이 연구는 AI가 ESG 분야에서 더욱 유용하게 활용될 수 있는 길을 제시하고 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Published:  (Updated: )

Author: Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao

http://arxiv.org/abs/2506.01646v1