aiXamine: LLM의 안전과 보안을 간소화하다


aiXamine 플랫폼을 활용한 LLM 안전 및 보안 평가 연구 결과, 주요 LLM 모델의 취약성과 오픈소스 모델의 잠재력이 확인되었습니다. 이는 LLM 개발 및 배포의 안전성 확보를 위한 지속적인 노력의 중요성을 강조합니다.

related iamge

최근 급속도로 발전하는 대규모 언어 모델(LLM)은 그 편리성에도 불구하고, 안전 및 보안 문제에 대한 우려를 끊임없이 제기하고 있습니다. 기존의 평가 방법들은 산발적이고 체계적이지 못해, LLM의 전반적인 안전성과 보안성을 제대로 평가하는 데 어려움을 겪어왔습니다.

이러한 문제를 해결하기 위해, Fatih Deniz, Dorde Popovic 등 연구진이 개발한 aiXamine 플랫폼이 등장했습니다. aiXamine은 40개 이상의 테스트를 통합하여 LLM의 안전 및 보안을 포괄적으로 평가하는 블랙박스 평가 플랫폼입니다. 적대적 강건성, 코드 보안, 공정성 및 편향, 환각, 모델 및 데이터 개인 정보 보호, 분포 외(OOD) 강건성, 과도한 거부, 안전 정렬 등 8가지 주요 서비스를 통해 LLM의 다양한 측면을 평가합니다.

주목할 만한 성과: 연구진은 aiXamine을 사용하여 50개 이상의 공개 및 독점 LLM을 평가하고 2000회 이상의 검사를 수행했습니다. 그 결과, 놀랍게도 OpenAI의 GPT-4에서 적대적 공격에 대한 취약성, xAI의 Grok-3에서 편향된 출력, Google의 Gemini 2.0에서 개인 정보 보호 약점 등 주요 모델에서 상당한 취약성이 발견되었습니다. 흥미롭게도, 오픈소스 모델이 안전 정렬, 공정성 및 편향, OOD 강건성과 같은 특정 서비스에서 독점 모델과 동등하거나 능가하는 성능을 보이는 것으로 나타났습니다. 또한, 증류 전략, 모델 크기, 훈련 방법, 아키텍처 선택 간의 상호 작용도 확인했습니다.

이 연구는 LLM의 안전과 보안에 대한 심각한 문제점을 드러내는 동시에, 오픈소스 모델의 잠재력을 보여주는 중요한 결과를 제시합니다. 앞으로 LLM의 안전하고 신뢰할 수 있는 개발과 배포를 위해서는 aiXamine과 같은 엄격한 평가 플랫폼과 지속적인 연구 개발이 필수적일 것입니다. aiXamine은 LLM 개발자와 사용자 모두에게 중요한 도구가 될 것으로 기대됩니다. 더 나아가, 이 연구는 LLM의 안전성을 향상시키기 위한 새로운 연구 방향을 제시하고, 더욱 안전하고 신뢰할 수 있는 AI 시스템 개발을 위한 토대를 마련할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] aiXamine: LLM Safety and Security Simplified

Published:  (Updated: )

Author: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil

http://arxiv.org/abs/2504.14985v1