LLM 기반 제로샷 취약점 탐지의 혁신: VulnSage 프레임워크

Arastoo Zibaeirad와 Marco Vieira가 개발한 VulnSage 프레임워크는 LLM 기반 제로샷 취약점 탐지의 정확성을 높였으며, 특히 'Think & Verify' 전략과 코드 전문 모델의 효과를 입증했습니다. 하지만 취약점 유형에 따른 성능 차이를 고려하여, 다양한 보안 상황에 대한 포괄적인 접근이 필요함을 시사합니다.

소프트웨어 취약점 자동 탐지의 새로운 지평을 열다: VulnSage

점점 더 복잡해지는 소프트웨어 시스템에서 자동화된 소프트웨어 취약점 탐지(SVD)는 여전히 풀기 어려운 난제입니다. 대규모 언어 모델(LLM)이 코드 분석에 혁신을 가져왔지만, 기존 평가 방법론은 실제 세계의 복잡성과 구성 요소 간 상호 작용을 제대로 포착하지 못하는 경우가 많았습니다.

Arastoo Zibaeirad와 Marco Vieira는 이러한 한계를 극복하기 위해 VulnSage라는 포괄적인 평가 프레임워크와 데이터셋을 개발했습니다. C/C++로 개발된 대규모 오픈소스 시스템 소프트웨어 프로젝트에서 얻은 데이터를 기반으로, 휴리스틱 노이즈 전처리 기법과 LLM 기반 추론을 결합하여 실제와 가까운, 잡음이 최소화된 취약점 데이터를 구축했습니다. 이는 기존 데이터셋과 차별화되는 VulnSage의 가장 큰 특징입니다.

VulnSage는 함수, 파일, 함수 간 상호 작용 등 다양한 수준에서 분석을 지원하며, Baseline, Chain-of-Thought, Think, Think & Verify 등 네 가지 제로샷 프롬프트 전략을 활용합니다. 흥미로운 점은, 구조화된 추론 프롬프트가 LLM의 성능을 크게 향상시킨다는 사실입니다. 특히 'Think & Verify' 전략은 모호한 응답을 20.3%에서 9.1%로 줄이고 정확도를 높였습니다.

또한, 연구 결과는 코드 전문 모델이 범용 모델보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다. 하지만, 취약점 유형에 따라 성능 차이가 크게 나타나, 어떤 단일 접근 방식이 모든 보안 상황에서 최고의 성능을 보장하는 것은 아님을 시사합니다.

VulnSage는 https://github.com/Erroristotle/VulnSage.git 에서 데이터셋과 코드를 공개하여, AI 기반 소프트웨어 보안 연구에 새로운 가능성을 제시하고 있습니다. 이 연구는 LLM을 이용한 취약점 탐지 분야의 발전에 중요한 기여를 할 것으로 기대됩니다.

향후 연구 방향: 다양한 프로그래밍 언어와 더욱 복잡한 소프트웨어 시스템에 대한 VulnSage의 적용 및 확장, LLM의 추론 능력 향상을 위한 추가적인 연구가 필요합니다. 또한, 실제 환경에서의 성능 검증을 통해 VulnSage의 실용성을 더욱 높이는 연구가 중요합니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Reasoning with LLMs for Zero-Shot Vulnerability Detection

Published: (Updated: )

Author: Arastoo Zibaeirad, Marco Vieira

http://arxiv.org/abs/2503.17885v1