혁신적인 AI 에이전트 안전성 확보 기술: MICE의 등장
마이크로소프트 연구팀이 개발한 MICE는 AI 에이전트의 도구 사용 안전성을 크게 향상시키는 혁신적인 기술입니다. 언어 모델의 내부 정보를 활용하여 신뢰도를 정확하게 평가함으로써, 기존 방식보다 안전하고 효율적인 도구 호출을 가능하게 합니다. 공개된 코드를 통해 AI 연구 발전에 기여할 것으로 기대됩니다.

실제 세계에서 작동하는 도구 사용 AI 에이전트는 유용성과 안전성이라는 두 마리 토끼를 모두 잡아야 합니다. 최근 마이크로소프트 연구팀(Nishant Subramani, Jason Eisner, Justin Svegliato, Benjamin Van Durme, Yu Su, Sam Thomson)은 이러한 문제에 대한 혁신적인 해결책을 제시했습니다. 바로 MICE(Model-Internal Confidence Estimation) 입니다.
많은 AI 모델들은 실제 성능과 예측 신뢰도 간의 차이가 커서, 안전한 의사결정에 어려움을 겪습니다. MICE는 모델 내부의 정보를 활용하여 이러한 문제를 해결하는 데 초점을 맞춥니다. 기존의 신뢰도 추정 방식과 달리, MICE는 언어 모델의 중간 계층에서 생성된 정보를 분석하여 최종 결과에 대한 신뢰도를 평가합니다. 구체적으로, logitLens를 사용하여 각 중간 계층을 디코딩하고, 각 계층의 생성 결과와 최종 출력 간의 유사성 점수를 계산합니다. 이러한 특징들을 학습된 확률 분류기에 입력하여 신뢰도를 평가하는 것이죠. 이는 마치 모델의 '내면'을 들여다보며 신뢰도를 판단하는 것과 같습니다.
Llama3 모델을 사용한 실험 결과, MICE는 기존 방식을 능가하거나 동등한 성능을 보였습니다. 특히, 도구 호출의 유용성을 측정하는 새로운 지표에서도 기존 방식보다 훨씬 우수한 결과를 나타냈습니다. 또한, MICE는 데이터 효율성이 높고, 새로운 API에도 적용 가능하며, 위험 수준이 다른 상황에서도 높은 도구 호출 유용성을 유지하는 것으로 확인되었습니다. 이 연구의 놀라운 점은, 그들의 코드가 GitHub에서 공개되어 있다는 것입니다. 이는 AI 연구의 발전에 중요한 기여이며, 앞으로 더 많은 연구자들이 이를 기반으로 더욱 안전하고 유용한 AI 에이전트 개발에 박차를 가할 수 있을 것으로 기대됩니다.
하지만, MICE가 모든 상황에서 완벽한 해결책은 아닐 것입니다. 향후 연구에서는 다양한 모델과 환경에서 MICE의 성능을 더욱 면밀히 검증하고, 그 한계점을 극복하기 위한 노력이 필요할 것입니다. MICE는 AI 안전성 향상에 중요한 한 걸음이지만, 안전하고 책임감 있는 AI 개발을 위한 여정은 계속될 것입니다.
Reference
[arxiv] MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools
Published: (Updated: )
Author: Nishant Subramani, Jason Eisner, Justin Svegliato, Benjamin Van Durme, Yu Su, Sam Thomson
http://arxiv.org/abs/2504.20168v1