소프트웨어 엔지니어링 에이전트의 새로운 지평: 더 크게가 아닌, 더 똑똑하게!

본 기사는 소프트웨어 엔지니어링 에이전트의 성능 향상을 위한 새로운 연구 결과를 소개합니다. 기존의 대규모 모델에 대한 의존성에서 벗어나, 테스트 시간 연산 확장을 통해 32B 모델이 46%의 문제 해결률을 달성하며 기존 대규모 모델들을 능가하는 성과를 거두었습니다. 연구진은 모든 데이터와 코드를 공개하여 향후 연구에 기여할 것을 약속했습니다.

소프트웨어 엔지니어링 에이전트의 혁신: 더 큰 모델이 아닌, 더 긴 사고

최근 소프트웨어 엔지니어링 에이전트는 프로그램 개선 자동화 분야에서 놀라운 발전을 보여주었습니다. 하지만 이러한 에이전트들은 대부분 폐쇄형 소스 또는 자원 집약적인 모델에 의존하고 있어, 개인 환경에서의 배포에 어려움을 겪고 있습니다. Yingwei Ma 등 연구진은 이러한 문제에 대한 해결책으로 "Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute" 라는 논문을 통해 새로운 가능성을 제시했습니다.

핵심 아이디어: 테스트 시간 연산의 확장

연구진은 대규모 모델 대신 테스트 시간 연산(TTC) 의 확장을 통해 개인적으로 배포 가능한 오픈소스 LLM이 기존의 고성능 모델과 비슷한 수준의 코드 추론 성능을 달성할 수 있음을 증명했습니다. 이를 위해 두 가지 상호 보완적인 전략을 제시합니다.

내부 TTC: 개발 맥락 기반 경로 합성 방법을 통해 실제 소프트웨어 저장소를 활용하여 버그 수정 및 패치 생성과 같은 다단계 추론 과정을 효율적으로 개선합니다. 정확성과 복잡성을 엄격하게 평가하여 경로의 질을 높이는 거절 샘플링 기법도 함께 적용됩니다.
외부 TTC: 보상 모델과 실행 검증에 기반한 개발 프로세스 기반 검색 전략을 제시합니다. 기존의 단순한 종점 검증 방식의 한계를 극복하여 중요한 개발 의사 결정 지점에 연산 자원을 효율적으로 배분합니다.

놀라운 성과: 32B 모델의 46% 문제 해결률

SWE-bench Verified 데이터셋을 사용한 평가 결과, 연구진의 32B 모델은 46%의 문제 해결률을 달성했습니다. 이는 DeepSeek R1 671B 및 OpenAI o1과 같은 훨씬 더 큰 모델들을 능가하는 놀라운 성과입니다. 또한, 모델이 어려운 문제에 더 많은 토큰을 동적으로 할당하여 추론 능력을 향상시킨다는 것을 실험적으로 증명했습니다.

오픈소스 공개: 연구의 지속적인 발전을 위한 초석

연구진은 모든 훈련 데이터, 모델 및 코드를 공개하여 후속 연구를 위한 기반을 마련했습니다. ( GitHub 링크 )

결론: 더 나은 소프트웨어 엔지니어링 에이전트를 향한 한 걸음

이 연구는 소프트웨어 엔지니어링 에이전트의 발전에 중요한 기여를 합니다. 대규모 모델에 대한 의존도를 줄이고, 더욱 효율적이고 실용적인 방식으로 성능을 향상시킬 수 있는 새로운 길을 제시함으로써, 더욱 강력하고 접근성 높은 소프트웨어 개발 환경을 만드는 데 기여할 것으로 기대됩니다. 이제 소프트웨어 개발의 미래는 더 크게가 아닌, 더 똑똑하게 나아가고 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute

Published: (Updated: )

Author: Yingwei Ma, Binhua Li, Yihong Dong, Xue Jiang, Rongyu Cao, Jue Chen, Fei Huang, Yongbin Li

http://arxiv.org/abs/2503.23803v1