WixQA: 현실적인 기업 환경을 위한 RAG 시스템 평가 벤치마크 등장
WixQA는 기업 환경의 RAG 시스템을 위한 새로운 벤치마크로, 실제 고객 지원 상황을 반영한 다양한 데이터셋과 지식베이스 스냅샷을 제공하여 현실적인 평가를 가능하게 합니다. 이는 RAG 기술의 발전과 기업 QA 시스템 개선에 크게 기여할 것으로 기대됩니다.

최근 Retrieval-Augmented Generation (RAG) 기술이 질의응답(QA) 시스템의 핵심으로 떠오르고 있습니다. 외부 지식을 활용하여 근거 있는 답변을 생성하는 RAG는 기존의 제한적인 QA 시스템의 한계를 뛰어넘는 혁신적인 기술입니다. 그러나 기존 연구는 주로 오픈 도메인 데이터셋에 집중되어 실제 기업 환경의 복잡성과 특수성을 충분히 반영하지 못했습니다. 이러한 한계를 극복하기 위해 Wix.com 연구팀이 개발한 WixQA 벤치마크가 주목받고 있습니다.
WixQA는 기업 QA 시스템의 현실적인 평가를 위해 실제 고객 지원 상황을 반영한 데이터셋을 제공합니다. 단순히 질문과 답변 쌍만 제공하는 것이 아니라, 답변을 생성하는데 사용된 지식베이스(KB) 스냅샷까지 함께 제공하여 검색 및 생성 성능을 종합적으로 평가할 수 있도록 설계되었습니다. 이는 기존 벤치마크와 차별화되는 WixQA의 가장 큰 특징입니다.
WixQA는 크게 세 가지 유형의 데이터셋으로 구성됩니다.
- WixQA-ExpertWritten: 실제 사용자 질문 200개와 전문가가 작성한 다단계 답변으로 구성된 데이터셋입니다. 실제 기업 환경에서 발생하는 복잡한 질문과 답변 패턴을 반영합니다.
- WixQA-Simulated: 사용자 대화에서 추출한 200개의 전문가 검증 QA 쌍으로 구성된 데이터셋입니다. 실제 사용자의 질문 스타일과 답변 방식을 반영합니다.
- WixQA-Synthetic: Wix Help Center KB의 각 문서에서 체계적으로 생성된 6,222개의 LLM 생성 QA 쌍으로 구성된 데이터셋입니다. 지식베이스의 포괄적인 커버리지를 제공하며, RAG 시스템의 일반화 성능을 평가하는데 유용합니다.
WixQA는 MIT 라이선스 하에 KB 스냅샷과 함께 공개되며, 포괄적인 기준 성능 결과도 함께 제공합니다. 이를 통해 연구자들은 WixQA를 활용하여 기업 환경에서 RAG 시스템의 성능을 현실적으로 평가하고, 더 나은 시스템 개발에 기여할 수 있습니다. WixQA는 단순한 벤치마크를 넘어, 기업 환경에서 RAG 기술의 발전을 가속화하는 촉매제 역할을 할 것으로 기대됩니다. 앞으로 WixQA를 기반으로 한 다양한 연구들이 등장하여 기업 QA 시스템의 발전을 이끌어갈 것으로 예상됩니다. 🎉
Reference
[arxiv] WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation
Published: (Updated: )
Author: Dvir Cohen, Lin Burg, Sviatoslav Pykhnivskyi, Hagit Gur, Stanislav Kovynov, Olga Atzmon, Gilad Barkan
http://arxiv.org/abs/2505.08643v1