aiXamine: LLM의 안전과 보안을 위한 간소화된 평가 플랫폼


aiXamine이라는 새로운 LLM 평가 플랫폼을 통해 50개 이상의 LLM의 안전 및 보안 취약성이 발견되었으며, 오픈소스 모델의 성능이 기대 이상임을 확인했습니다. 이는 향후 LLM 개발 및 안전한 사용에 중요한 시사점을 제공합니다.

related iamge

aiXamine: LLM의 안전과 보안을 위한 혁신적인 평가 플랫폼

대규모 언어 모델(LLM)의 안전성과 보안성 평가는 복잡하고 어려운 작업입니다. 임시변통 벤치마크, 데이터 세트, 지표 및 보고 형식의 단편적인 환경을 탐색해야 하기 때문입니다. 이러한 과제를 해결하기 위해 등장한 것이 바로 aiXamine입니다.

aiXamine은 LLM의 안전과 보안을 위한 포괄적인 블랙박스 평가 플랫폼입니다. 40개가 넘는 테스트(벤치마크)를 통합하여 8가지 주요 서비스로 구성되어 있습니다. 각 서비스는 안전 및 보안의 특정 측면을 타겟으로 합니다:

  • 적대적 강건성
  • 코드 보안
  • 공정성 및 편향성
  • 환각
  • 모델 및 데이터 개인 정보 보호
  • 분포 외(OOD) 강건성
  • 과도한 거부
  • 안전 정렬

aiXamine은 각 모델에 대한 단일 상세 보고서로 평가 결과를 집계하여 모델 성능, 테스트 예시 및 풍부한 시각화를 자세히 분석합니다.

놀라운 발견들: 50개 이상의 LLM에 대한 2000회 이상의 검사 결과

연구팀은 aiXamine을 사용하여 50개 이상의 공개 및 독점 LLM을 평가하고 2000회 이상의 검사를 수행했습니다. 그 결과, 선두 모델들의 주목할 만한 취약성이 드러났습니다.

  • OpenAI의 GPT-4o: 적대적 공격에 취약
  • xAI의 Grok-3: 편향된 출력 생성
  • Google의 Gemini 2.0: 개인 정보 보호 취약성

흥미롭게도, 오픈소스 모델이 안전 정렬, 공정성 및 편향성, OOD 강건성과 같은 특정 서비스에서 독점 모델과 동등하거나 능가하는 성능을 보였습니다. 이는 오픈소스 모델의 잠재력을 보여주는 중요한 발견입니다.

또한, 증류 전략, 모델 크기, 훈련 방법 및 아키텍처 선택 간의 상충 관계도 확인되었습니다.

결론: aiXamine이 제시하는 미래

aiXamine은 LLM의 안전성과 보안성 평가에 대한 새로운 기준을 제시합니다. 이 플랫폼은 더 안전하고 신뢰할 수 있는 LLM 개발에 기여하고, 사용자들이 안전하게 LLM을 사용할 수 있도록 지원할 것입니다. 앞으로 aiXamine을 통한 지속적인 연구는 LLM 기술의 발전과 안전한 활용에 중요한 역할을 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] aiXamine: Simplified LLM Safety and Security

Published:  (Updated: )

Author: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil

http://arxiv.org/abs/2504.14985v2