혁신적인 사이버 공격 분석: LLM과 임베딩 모델을 활용한 위협 행위자 식별 및 속성 분석
본 연구는 LLM과 임베딩 모델을 활용하여 사이버 공격의 위협 행위자를 식별하고 속성을 분석하는 새로운 방법을 제시합니다. MITRE ATT&CK 데이터셋과의 비교 분석을 통해 LLM의 성능을 평가하고, 실제 적용 가능성을 검증했습니다. LLM의 한계에도 불구하고, 본 연구는 사이버 보안 분야에 AI를 활용하는 새로운 가능성을 열었습니다.

사이버 공격의 그림자 속을 파헤치다: AI의 힘으로
사이버 공격의 배후를 밝히는 일은 마치 미궁 속을 헤쳐나가는 것과 같습니다. 방대한 포렌식 문서에서 수동으로 행동 지표를 추출하는 기존 방식은 시간이 오래 걸리고, 특히 국제적인 대규모 사건 이후에는 속성 규명에 큰 지연을 초래합니다. 하지만 이제, Kyla Guru, Robert J. Moss, Mykel J. Kochenderfer 연구팀의 획기적인 연구가 이 어려운 문제에 대한 새로운 해결책을 제시합니다.
거대한 언어 모델(LLM)과 임베딩 모델: 사이버 공격 분석의 새로운 지평
연구팀은 OpenAI의 GPT-4와 text-embedding-3-large를 활용하여 포렌식 문서에서 추출한 행동 지표를 바탕으로 사이버 공격의 속성을 분석하는 시스템을 개발했습니다. 이는 마치 탐정이 퍼즐 조각을 맞추듯, LLM이 방대한 정보 속에서 위협 행위자의 전술, 기법, 절차(TTP)를 식별하는 혁신적인 접근 방식입니다. 연구의 핵심은 MITRE ATT&CK 그룹의 인간이 생성한 데이터와 LLM이 생성한 TTP를 비교 분석하여 LLM의 성능을 평가하는 것입니다. 벡터 임베딩 검색을 이용하여 텍스트에서 TTP를 식별하고, 이를 바탕으로 프로필을 구축하여 새로운 공격을 속성 지정하는 머신 러닝 모델을 학습시키는 종합적인 파이프라인을 구축했습니다.
현실적인 한계와 놀라운 가능성
흥미롭게도 연구 결과는 LLM이 TTP 데이터셋을 생성하는 과정에서 노이즈가 발생하여 인간이 생성한 데이터셋과의 유사성이 낮다는 점을 보여줍니다. 하지만 생성된 TTP의 빈도는 기존 MITRE 데이터셋과 유사하며, 속성 지정 모델 학습에 유용하게 활용될 수 있음을 증명했습니다. 이는 LLM이 완벽하지 않더라도, 사이버 공격 분석에 상당한 기여를 할 수 있음을 시사합니다.
주요 기여: (1) TTP 추출 및 속성 지정을 위한 상용 LLM 평가, (2) 원시 CTI 문서에서 위협 행위자 예측까지의 엔드 투 엔드 파이프라인 개발
열린 협력과 미래를 향한 발걸음
연구팀은 프로젝트 코드와 파일을 GitHub에 공개하여 연구의 투명성과 재현성을 높였습니다. 이는 다른 연구자들이 이 연구를 바탕으로 더욱 발전된 기술을 개발하는데 기여할 것입니다. 이 연구는 LLM을 활용한 사이버 보안 분야의 새로운 가능성을 제시하며, 미래의 사이버 공격 분석에 대한 기대감을 높여줍니다. 앞으로 LLM의 성능 향상 및 노이즈 감소를 위한 연구가 지속된다면, 더욱 정확하고 효율적인 사이버 공격 분석 시스템 구축이 가능할 것으로 예상됩니다.
Reference
[arxiv] On Technique Identification and Threat-Actor Attribution using LLMs and Embedding Models
Published: (Updated: )
Author: Kyla Guru, Robert J. Moss, Mykel J. Kochenderfer
http://arxiv.org/abs/2505.11547v1