코드 지식 기반 분산 시스템 오류 원인 분석: COCA 모델의 혁신
COCA 모델은 분산 시스템의 실행 오류 원인 분석에 있어 기존 방법의 한계를 극복한 혁신적인 접근 방식입니다. 코드 지식을 활용하여 이슈 보고서의 불완전한 정보만으로도 정확한 원인 분석 및 요약을 가능하게 하며, 다양한 LLM에서 일관된 성능을 보여줍니다.

현대 분산 시스템에서 실행 오류는 흔히 발생하는 문제입니다. 사용자들은 Github나 JIRA와 같은 플랫폼을 통해 오류를 보고하고 지원을 요청하지만, 오류의 근본 원인을 자동으로 식별하는 것은 시스템의 신뢰성과 가용성을 확보하는 데 매우 중요합니다.
기존의 자동화된 원인 분석(RCA) 접근 방식은 포괄적인 실행 중 모니터링 데이터에 크게 의존하지만, 이러한 데이터는 이슈 플랫폼에서 항상 완벽하게 제공되지 않습니다. 최근에는 대규모 언어 모델(LLM)을 활용하여 이슈 보고서를 분석하는 방법이 등장했지만, 사용자 제공 정보의 불완전성이나 모호성으로 인해 효과가 제한적이었습니다.
Li Yichen 등 연구진이 개발한 COCA (Code Knowledge Enhanced Root Cause Analysis) 는 이러한 한계를 극복하기 위해 코드 지식을 활용한 혁신적인 접근 방식을 제시합니다. COCA는 이슈 보고서의 데이터를 기반으로 관련 코드 조각을 추출하고 실행 경로를 재구성하여 포괄적인 실행 컨텍스트를 제공합니다. 이후, COCA는 과거 이슈 보고서와 프로파일링된 코드 지식을 결합한 프롬프트를 생성하여 LLM이 상세한 원인 요약을 생성하고 책임 있는 구성 요소를 찾도록 합니다.
다섯 개의 실제 분산 시스템 데이터셋을 사용한 평가 결과, COCA는 기존 방법보다 원인 탐지 정확도를 28.3%, 원인 요약 정확도를 22.0% 향상시켰습니다. 또한, 다양한 LLM에서 일관된 성능을 보여주어 강력한 일반화 가능성을 입증했습니다. 이는 COCA가 다양한 분산 시스템 환경에서 폭넓게 적용될 수 있음을 의미합니다.
결론적으로, COCA는 제한된 정보로도 효과적인 원인 분석을 가능하게 하는 획기적인 모델입니다. 실행 중 모니터링 데이터에 대한 의존도를 낮추고, 코드 지식을 적극 활용함으로써 분산 시스템의 안정성과 신뢰성 향상에 크게 기여할 것으로 기대됩니다. 앞으로 COCA의 발전과 다양한 분야로의 확장이 기대됩니다. 🚀
Reference
[arxiv] COCA: Generative Root Cause Analysis for Distributed Systems with Code Knowledge
Published: (Updated: )
Author: Yichen Li, Yulun Wu, Jinyang Liu, Zhihan Jiang, Zhuangbin Chen, Guangba Yu, Michael R. Lyu
http://arxiv.org/abs/2503.23051v1