혁신적인 AI 기반 소프트웨어 안전성 검증 시스템 등장: 원자성 위반 자동 탐지의 새 지평
Hang He 등 연구팀이 개발한 'Clover'는 정적 분석과 LLM 에이전트를 결합하여 소프트웨어의 원자성 위반을 효과적으로 탐지하는 시스템입니다. RaceBench 2.1, SV-COMP, RWIP 데이터셋 평가 결과 기존 방식보다 F1 점수가 27.4~118.2% 향상되어 높은 정밀도와 재현율을 달성했습니다.

끊임없는 위협, 원자성 위반
중요 시스템의 소프트웨어 안전성을 위협하는 주요 요인 중 하나는 바로 원자성 위반(atomicity violation) 입니다. 비동기 인터럽트에 의해 공유 자원에 대한 연산 순서가 깨질 때 발생하는 이 문제는 방대한 프로그램 상태 공간, 애플리케이션 수준 코드 의존성, 그리고 복잡한 도메인별 지식으로 인해 탐지가 매우 어렵습니다.
'Clover': AI가 가져온 혁신
Hang He 박사를 비롯한 연구팀은 이러한 어려움을 극복하기 위해 정적 분석과 대규모 언어 모델(LLM) 에이전트를 통합한 하이브리드 프레임워크 'Clover'를 개발했습니다. Clover는 먼저 정적 분석을 통해 중요 코드 조각과 연산 정보를 추출합니다. 그런 다음, 전문가 에이전트는 도메인별 지식을 활용하여 원자성 위반을 감지하고, 판사 에이전트가 이를 검증하는 다중 에이전트 프로세스를 시작합니다. 마치 숙련된 전문가와 엄격한 심사관이 협력하여 오류를 찾아내는 것과 같습니다.
놀라운 성능: 기존 기술을 압도하다
RaceBench 2.1, SV-COMP, RWIP 등의 데이터셋을 사용한 평가 결과, Clover는 92.3%/86.6%의 정밀도/재현율을 달성했습니다. 이는 기존 접근 방식에 비해 F1 점수에서 27.4~118.2% 향상된 놀라운 결과입니다. 이러한 성과는 Clover가 대규모 시스템에서 원자성 위반을 효과적으로 탐지할 수 있음을 명확히 보여줍니다.
미래를 향한 발걸음
Clover의 등장은 소프트웨어 안전성 검증 분야에 획기적인 전환점을 마련했습니다. AI의 힘을 활용하여 복잡한 문제를 해결하는 이러한 시도는 앞으로 더욱 안전하고 신뢰할 수 있는 소프트웨어 개발의 새로운 가능성을 열어줄 것입니다. Clover의 성공은 AI 기술이 다양한 분야의 난제 해결에 기여할 수 있는 잠재력을 다시 한번 확인시켜주는 사례입니다. 하지만 LLM 에이전트의 도입으로 인한 비용이나 성능 저하 등의 문제점에 대한 추가적인 연구가 필요할 것으로 보입니다.
Reference
[arxiv] Automated detection of atomicity violations in large-scale systems
Published: (Updated: )
Author: Hang He, Yixing Luo, Chengcheng Wan, Ting Su, Haiying Sun, Geguang Pu
http://arxiv.org/abs/2504.00521v1