꿈꾸는 AI, 안전하게 깨우는 방법: 적응형 스트레스 테스트로 LLM의 취약점 파헤치다
본 기사는 Neeloy Chakraborty 등 연구진이 제시한 적응형 스트레스 테스트(AST)와 몬테카를로 트리 탐색(MCTS)을 결합한 LLM 안전성 평가 방법에 대해 소개합니다. 이 방법은 LLM의 환각 현상을 효과적으로 탐지하고, 실시간 신뢰도 평가에 활용 가능한 프롬프트를 자동 생성하는 데 기여할 것으로 기대됩니다.

최근 괄목할 만한 성과를 보이고 있는 대규모 언어 모델(LLM). 계획, 제어, 예측 등 다양한 의사결정 작업에서 뛰어난 성능을 선보이고 있지만, 안전하지 않고 원치 않는 결과물을 만들어내는 '환각(hallucination)' 현상이 심각한 문제로 떠오르고 있습니다. 특히 자율주행 등 안전이 중요한 분야에서는 이러한 환각 현상의 위험성이 더욱 커집니다.
Neeloy Chakraborty, John Pohovey, Melkior Ornik, Katherine Driggs-Campbell 등 연구진은 이 문제 해결을 위해 기존의 블랙박스 방식을 뛰어넘는 새로운 방법을 제시했습니다. 기존 방법들은 여러 샘플 간의 불일치를 감지하여 환각을 탐지하는데, 주로 프롬프트에 무작위로 변화를 주는 방식을 사용했습니다. 하지만 이러한 접근 방식은 한계가 명확했습니다.
연구진은 먼저, 수동 사례 연구를 통해 소음 추가, 센서 정보 제거 등 다양한 프롬프트 변형이 자율주행 환경에서 LLM의 환각을 유발한다는 것을 보여주었습니다. 그리고 이러한 문제를 효율적으로 해결하기 위해, 적응형 스트레스 테스트(AST)와 몬테카를로 트리 탐색(MCTS) 을 결합한 새로운 방법을 제안했습니다.
AST는 LLM이 높은 불확실성으로 행동하게 만드는 시나리오와 프롬프트를 효율적으로 찾는 것을 가능하게 합니다. 다양한 시나리오에 걸쳐 MCTS 프롬프트 변형 트리를 생성함으로써, 연구진은 오프라인 분석을 통해 실시간으로 모델의 불확실성에 영향을 미치는 프롬프트를 자동으로 생성하고, LLM의 실시간 신뢰도 평가에 활용할 수 있는 방법을 제시했습니다.
이 연구는 LLM의 안전성 문제에 대한 새로운 해결책을 제시하며, 더욱 안전하고 신뢰할 수 있는 AI 시스템 개발에 중요한 이정표를 세웠다는 점에서 큰 의미를 갖습니다. 앞으로 이 방법이 실제 시스템에 적용되어 AI의 안전성을 더욱 높이는 데 기여할 것으로 기대됩니다.
Reference
[arxiv] Adaptive Stress Testing Black-Box LLM Planners
Published: (Updated: )
Author: Neeloy Chakraborty, John Pohovey, Melkior Ornik, Katherine Driggs-Campbell
http://arxiv.org/abs/2505.05665v1