코드 생성의 새로운 기준: 형식적으로 검증된 CLEVER 벤치마크 등장!
Amitayush Thakur 등 연구진이 개발한 CLEVER 벤치마크는 Lean을 활용한 형식적 검증을 통해 코드의 정확성을 보장하며, 최첨단 언어 모델의 한계를 드러내 프로그램 합성 및 형식적 추론 분야에 새로운 도전 과제를 제시합니다. GitHub와 HuggingFace를 통해 공개되어 연구자들의 활용을 촉진할 것으로 기대됩니다.

인공지능(AI) 분야에서 코드 생성은 괄목할 만한 발전을 이루고 있지만, 생성된 코드의 정확성을 보장하는 것은 여전히 큰 과제입니다. 기존 벤치마크들은 테스트 케이스 감독이나 LLM 생성 주석에 의존하거나, 구현 로직을 유출하거나 허점투성이 솔루션을 허용하는 등의 문제점을 가지고 있었습니다.
하지만 이제 이러한 한계를 극복하는 새로운 벤치마크가 등장했습니다! Amitayush Thakur 등 연구진이 개발한 CLEVER (Curated Benchmark for Formally Verified Code Generation) 는 Lean이라는 형식적 증명 시스템을 활용하여 161개의 문제로 구성된 고품질 벤치마크입니다.
CLEVER의 핵심은 바로 ‘형식적 검증’입니다. 각 문제는 (1) 기존 정답 사양과 일치하는 사양 생성, (2) 이 사양을 만족하는 Lean 구현 생성이라는 두 가지 과제로 구성됩니다. 모든 출력은 Lean의 타입 체커를 사용하여 사후 검증되므로, 기계적으로 코드의 정확성을 보장할 수 있습니다.
연구진은 CLEVER를 사용하여 최첨단 언어 모델 기반의 몇 가지 퓨샷 및 에이전트 접근 방식을 평가했습니다. 그 결과, 이러한 방법들은 완전한 검증에 어려움을 겪는 것으로 나타났습니다. 이는 프로그램 합성 및 형식적 추론 분야에서 CLEVER가 얼마나 어려운 벤치마크인지를 보여주는 결과입니다.
더욱 놀라운 것은 CLEVER 벤치마크와 모든 평가 코드가 GitHub(https://github.com/trishullab/clever)와 HuggingFace(https://huggingface.co/datasets/amitayusht/clever)를 통해 공개되었다는 점입니다. 이는 연구자들이 자유롭게 활용하여 코드 생성 기술의 발전에 기여할 수 있음을 의미합니다. 이는 형식적 검증의 중요성을 더욱 강조하며, AI 기반 코드 생성의 신뢰성 향상에 중요한 이정표가 될 것으로 기대됩니다.
CLEVER는 단순한 벤치마크를 넘어, AI 코드 생성의 새로운 지평을 여는 이정표가 될 것입니다. 앞으로 CLEVER를 활용한 다양한 연구와 발전을 통해 더욱 안전하고 신뢰할 수 있는 AI 기반 코드 생성 기술이 개발될 것으로 기대됩니다. 👍
Reference
[arxiv] CLEVER: A Curated Benchmark for Formally Verified Code Generation
Published: (Updated: )
Author: Amitayush Thakur, Jasper Lee, George Tsoukalas, Meghana Sistla, Matthew Zhao, Stefan Zetzche, Greg Durrett, Yisong Yue, Swarat Chaudhuri
http://arxiv.org/abs/2505.13938v1