획기적인 연구: LLM이 실제 클라우드 인프라의 보안 위협을 모델링할 수 있을까요?
LLM의 클라우드 보안 위협 모델링 능력을 평가하는 새로운 데이터셋 ACSE-Eval이 공개되었으며, GPT-4.1과 Gemini 2.5 Pro가 우수한 성능을 보였습니다. 연구팀은 데이터셋을 오픈소스로 공개하여 AI 기반 사이버 보안 기술 발전에 기여할 계획입니다.

LLM의 클라우드 보안 역량, 과연 어디까지일까요?
최근 대규모 언어 모델(LLM)이 사이버 보안 분야에서 괄목할 만한 성과를 보이고 있지만, 클라우드 환경에서의 실제 보안 위협 식별 능력은 아직 미지의 영역으로 남아있었습니다. 인도의 연구진들이 발표한 획기적인 논문, "ACSE-Eval: Can LLMs threat model real-world cloud infrastructure?"는 이러한 의문에 대한 답을 제시하고 있습니다.
ACSE-Eval: 실제 클라우드 환경을 반영한 새로운 평가 기준
이 논문에서 연구진은 LLM의 클라우드 보안 위협 모델링 능력을 평가하기 위한 새로운 데이터셋, ACSE-Eval을 소개합니다. ACSE-Eval은 실제 AWS 환경을 기반으로 100개의 프로덕션급 배포 시나리오를 포함하고 있으며, 각 시나리오는 상세한 아키텍처 사양, IaC(Infrastructure as Code) 구현, 문서화된 보안 취약점, 그리고 관련 위협 모델링 매개변수 등을 담고 있습니다. 이는 LLM이 클라우드 환경에서 보안 위험을 식별하고, 공격 벡터를 분석하며, 완화 전략을 제안하는 능력을 체계적으로 평가할 수 있도록 설계되었습니다.
놀라운 결과: GPT-4.1과 Gemini 2.5 Pro의 활약
연구 결과, GPT-4.1과 Gemini 2.5 Pro가 위협 식별 능력에서 뛰어난 성능을 보였습니다. 특히 Gemini 2.5 Pro는 제로샷(0-shot) 학습에서, GPT-4.1은 퓨샷(few-shot) 학습에서 최고의 성능을 기록했습니다. GPT-4.1이 전반적으로 약간 우세한 성능을 보였지만, Claude 3.7 Sonnet은 의미론적으로 가장 정교한 위협 모델을 생성했음에도 불구하고 위협 분류 및 일반화에는 어려움을 겪었습니다.
더 나은 미래를 위한 공유: 오픈소스 공개
연구팀은 ACSE-Eval 데이터셋, 평가 지표, 그리고 방법론을 모두 오픈소스로 공개하여 재현성을 높이고 자동화된 사이버 보안 위협 분석 분야의 연구 발전에 기여할 계획입니다. 이는 AI 기반 사이버 보안 기술의 발전에 중요한 이정표가 될 것으로 기대됩니다. 앞으로 LLM을 활용한 더욱 안전하고 효율적인 클라우드 보안 시스템 구축이 가속화될 것으로 예상됩니다.
향후 연구: LLM의 클라우드 보안 위협 모델링 능력을 향상시키기 위한 연구가 더욱 활발해질 것으로 예상되며, ACSE-Eval 데이터셋은 이러한 연구에 중요한 기반이 될 것입니다. 특히, LLM의 설명 가능성(Explainability) 향상 및 다양한 클라우드 환경 및 공격 유형에 대한 일반화 능력 향상 연구가 중요한 과제로 떠오르고 있습니다.
Reference
[arxiv] ACSE-Eval: Can LLMs threat model real-world cloud infrastructure?
Published: (Updated: )
Author: Sarthak Munshi, Swapnil Pathak, Sonam Ghatode, Thenuga Priyadarshini, Dhivya Chandramouleeswaran, Ashutosh Rana
http://arxiv.org/abs/2505.11565v1