소스 코드 취약성 탐지의 혁신: 모의 법정이 AI에 만나다!
본 기사는 Ratnadira Widyasari 등 연구진이 개발한 소스 코드 취약성 탐지 시스템 'VulTrial'에 대해 다룹니다. VulTrial은 모의 법정을 모티브로 한 다중 에이전트 프레임워크로, GPT-3.5와 GPT-4o를 활용하여 기존 시스템보다 훨씬 뛰어난 성능을 보였습니다. 특히, 역할 특화 지시어 미세 조정과 GPT-3.5의 효율적인 활용을 통해 비용 대비 높은 성능 향상을 달성했습니다.

소스 코드 취약성 탐지의 혁신: 모의 법정이 AI에 만나다!
악성코드와 사이버 공격의 심각성이 날로 증가하는 가운데, 소스 코드 내 취약성을 효과적으로 탐지하는 것은 매우 중요한 과제입니다. 특히, 악성 코드와 정상 코드가 유사한 경우에는 그 어려움이 더욱 커집니다. 하지만 이제, 이러한 어려움을 극복할 획기적인 연구 결과가 발표되었습니다!
Ratnadira Widyasari 등 연구진이 개발한 **'VulTrial'**은 소스 코드 취약성 탐지를 위해 모의 법정이라는 참신한 접근 방식을 도입했습니다. 이 시스템은 보안 연구원, 코드 작성자, 중재자, 심사위원 등 네 가지 역할을 가진 에이전트를 활용하여 취약성을 판별하는 다중 에이전트 프레임워크입니다. 마치 실제 법정처럼, 각 에이전트는 자신이 맡은 역할에 따라 증거를 제시하고 논쟁을 벌이며, 최종적으로 취약성 여부를 판단하는 것이죠.
연구진은 GPT-3.5와 GPT-4o를 사용하여 VulTrial의 성능을 평가했습니다. 그 결과, VulTrial은 기존의 단일 에이전트 및 다중 에이전트 기반 시스템보다 훨씬 뛰어난 성능을 보였습니다. 특히, GPT-4o를 사용한 VulTrial은 기존 시스템 대비 성능을 무려 102.39%나 향상시켰습니다! 뿐만 아니라, 50개의 샘플만을 사용한 역할 특화 지시어 미세 조정을 통해 추가적으로 139.89%의 성능 향상을 달성했습니다.
흥미로운 점은, VulTrial이 비용 효율적인 측면에서도 뛰어난 성능을 보였다는 것입니다. GPT-4o는 성능이 뛰어나지만 비용이 높은 반면, GPT-3.5는 비용이 저렴합니다. 연구 결과, GPT-3.5를 사용한 VulTrial은 GPT-4o 단일 에이전트 시스템보다 69.89% 높은 성능을 보였습니다. 이는 성능과 비용 효율성을 동시에 잡은 놀라운 결과입니다.
VulTrial은 에이전트 간 상호 작용 횟수가 증가할수록 성능이 향상되는 경향을 보였으나, 토큰 사용량 증가에 따른 비용 증가 또한 고려해야 합니다. 따라서, 최적의 성능과 비용 효율성을 달성하기 위한 에이전트 상호 작용 횟수의 조절이 중요한 연구 과제로 남아 있습니다. 하지만 이번 연구는 소스 코드 취약성 탐지 분야에 새로운 가능성을 열었으며, 앞으로 AI 기반 보안 시스템의 발전에 크게 기여할 것으로 기대됩니다. 모의 법정이라는 독창적인 아이디어와 LLM의 강력한 성능이 만나 탄생한 VulTrial, 그 놀라운 성과에 주목해야 할 때입니다!
Reference
[arxiv] Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents
Published: (Updated: )
Author: Ratnadira Widyasari, Martin Weyssow, Ivana Clairine Irsan, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, Hong Jin Kang, David Lo
http://arxiv.org/abs/2505.10961v1