혁신적인 사이버 보안: LLM을 활용한 XSS 탐지의 새로운 지평


본 연구는 LLM을 활용하여 난독화된 XSS 공격에 대한 ML 모델의 탐지 정확도를 크게 향상시킨 획기적인 결과를 제시합니다. 기존 모델의 한계를 극복하고 실제 환경에 적용 가능한 더욱 안전한 시스템 구축에 기여할 것으로 기대됩니다.

related iamge

머신러닝(ML) 기반의 교차 사이트 스크립팅(XSS) 탐지의 한계를 극복하다!

OWASP(Open Web Application Security Project)에 따르면, XSS는 매우 심각한 보안 취약점입니다. 수십 년간의 연구에도 불구하고, XSS는 여전히 상위 10대 보안 취약점에 포함되어 있습니다. 기존의 ML 모델은 방대한 양의 다양한 데이터를 통해 훈련되는데, 특히 난독화된 XSS 공격에는 취약성을 보입니다. Dennis Miczek, Divyesh Gabbireddy, 그리고 Suman Saha 연구팀은 이러한 문제점을 해결하기 위해 획기적인 연구를 진행했습니다.

기존 ML 모델의 한계: 난독화된 XSS 공격에 대한 취약성

연구팀은 먼저 기존의 랜덤 포레스트 모델을 사용하여 XSS 탐지 실험을 진행했습니다. 일반적인(난독화되지 않은) XSS 데이터로 훈련된 모델은 놀라운 99.8%의 정확도를 달성했습니다. 하지만, 난독화된 XSS 샘플로 테스트했을 때 정확도는 81.9%로 급격히 떨어졌습니다. 이는 ML 모델이 난독화된 데이터로 훈련되어야 효과적으로 XSS 공격을 탐지할 수 있다는 것을 보여줍니다.

LLM의 등장: 복잡한 난독화 XSS 페이로드 자동 생성

문제는 복잡한 난독화 코드를 생성하는 것이 어렵다는 점입니다. 기존의 도구들은 제한된 수준의 난독화만 생성할 수 있습니다. 여기서 연구팀은 대규모 언어 모델(LLM) 을 활용한 혁신적인 아이디어를 제시합니다. LLM을 미세 조정하여 복잡한 난독화된 XSS 페이로드를 자동으로 생성하는 것입니다. 이를 통해 기존 ML 모델의 훈련 데이터에 다양하고 어려운 난독화 변형을 추가할 수 있습니다.

LLM 기반 난독화 데이터를 활용한 획기적인 성과

LLM을 통해 생성된 난독화 데이터로 훈련된 ML 모델은 무려 **99.5%**의 정확도를 달성했습니다. 더욱 놀라운 것은, LLM에 의해 생성된 난독화 샘플이 기존 도구에 의해 생성된 샘플보다 28.1% 더 복잡하다는 사실입니다. 이는 LLM 기반 난독화 데이터가 고급 XSS 공격에 대한 모델의 처리 능력을 크게 향상시키고 실제 환경에서의 보안성을 높인다는 것을 의미합니다.

결론: LLM을 활용한 사이버 보안의 새로운 가능성

본 연구는 LLM이 단순한 데이터 생성 도구를 넘어, 사이버 보안 분야의 핵심 기술로 활용될 수 있음을 보여줍니다. LLM을 통해 생성된 다양하고 복잡한 데이터를 활용하면 ML 모델의 성능을 획기적으로 향상시켜 더욱 안전한 시스템을 구축할 수 있습니다. 앞으로 LLM이 사이버 보안 분야에서 어떤 혁신을 가져올지 기대됩니다. 😄


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Leveraging LLM to Strengthen ML-Based Cross-Site Scripting Detection

Published:  (Updated: )

Author: Dennis Miczek, Divyesh Gabbireddy, Suman Saha

http://arxiv.org/abs/2504.21045v1