PaperBench: AI가 AI 연구를 재현하는 능력 평가 – 인간 전문가는 아직 앞서나가


PaperBench는 AI의 AI 연구 재현 능력을 평가하는 새로운 벤치마크로, 최고 성능 모델도 인간 전문가를 능가하지 못했지만, 오픈소스 코드 공개를 통해 AI 연구 발전에 기여할 것으로 예상됩니다.

related iamge

꿈틀대는 AI, 과연 인간 연구자를 넘어설 수 있을까? PaperBench의 놀라운 결과

최근, AI가 스스로 최첨단 AI 연구를 재현할 수 있는 능력을 평가하는 획기적인 벤치마크, PaperBench가 등장했습니다. Giulio Starace를 비롯한 13명의 연구진이 발표한 이 연구는, AI의 발전 수준을 가늠하는 새로운 지표를 제시하며 큰 주목을 받고 있습니다.

PaperBench는 2024년 ICML(International Conference on Machine Learning)에서 발표된 주목할 만한 논문 20편을 대상으로 진행되었습니다. AI 에이전트는 단순히 논문 내용을 이해하는 것을 넘어, 논문에서 제시된 연구를 처음부터 끝까지 재현해야 합니다. 여기에는 코드 개발, 실험 설계 및 실행, 그리고 결과 분석까지 포함됩니다. 마치 인간 연구자가 논문을 읽고 직접 실험을 재현하는 것과 같은 과정이죠.

이처럼 복잡한 과정을 효율적으로 평가하기 위해 연구진은 계층적 루브릭을 개발했습니다. 각 과제는 더 작은 하위 과제로 분해되어 명확한 채점 기준을 갖추고 있으며, 실제 논문 저자들과 함께 개발되어 정확성과 현실성을 높였습니다. 무려 8,316개의 개별 채점 가능한 과제가 포함되어 있다는 사실에 놀라움을 금할 수 없습니다.

더 나아가, 연구진은 LLM(대규모 언어 모델) 기반 자동 채점 시스템을 개발하여 확장 가능성을 확보했습니다. 이 시스템은 개발된 루브릭을 기반으로 AI 에이전트의 복제 시도를 자동으로 채점합니다. 채점 시스템의 정확성을 검증하기 위해 별도의 벤치마크도 함께 구축했다는 점이 인상적입니다.

그렇다면, 실제 AI 에이전트의 성능은 어땠을까요? 테스트 결과, 가장 우수한 성능을 보인 모델은 Claude 3.5 Sonnet (New) 으로, 오픈소스 스캐폴딩(Scaffolding)을 활용하여 평균 21.0%의 복제 점수를 달성했습니다. 하지만, 놀랍게도 최고 수준의 ML 박사 과정 학생들이 일부 과제를 수행한 결과, AI 모델은 아직 인간 전문가를 능가하지 못했습니다.

연구진은 AI 에이전트의 AI 엔지니어링 능력에 대한 이해를 더욱 심화시키기 위해, 사용된 코드를 오픈소스로 공개했습니다. 이는 AI 연구 분야의 발전에 중요한 기여를 할 것으로 기대됩니다. PaperBench는 AI의 발전 수준을 객관적으로 평가하는 중요한 척도를 제공하며, 앞으로 AI 연구의 새로운 장을 열어갈 것임에 틀림없습니다. 🏆

요약: PaperBench는 AI의 AI 연구 재현 능력을 평가하는 새로운 벤치마크이며, 최고 성능 모델조차 아직 인간 전문가를 능가하지 못하는 것으로 나타났습니다. 오픈소스 코드 공개를 통해 AI 연구 발전에 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] PaperBench: Evaluating AI's Ability to Replicate AI Research

Published:  (Updated: )

Author: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

http://arxiv.org/abs/2504.01848v2