더 크게가 아닌 더 오래 생각하기: 테스트 시간 연산 확장을 통한 소프트웨어 엔지니어링 에이전트 성능 향상

본 기사는 소프트웨어 엔지니어링 에이전트의 성능 향상을 위한 새로운 접근법인 'Test-Time Compute(TTC) 확장 프레임워크'에 대한 연구 결과를 소개합니다. 기존의 대규모 모델에 의존하는 방식 대신, 추론 시간 연산을 확장하여 32B 모델이 671B 모델을 능가하는 성능을 달성한 사실과 그 의미를 분석합니다. 또한, 연구팀의 오픈소스 공개를 통해 향후 연구 발전에 대한 기대감을 높입니다.

최근 소프트웨어 엔지니어링 에이전트는 프로그램 개선 자동화 분야에서 놀라운 잠재력을 보여주고 있습니다. 하지만, 대부분의 에이전트는 비공개 또는 자원 집약적인 모델에 의존하여 개인 환경에서의 배포에 어려움을 겪고 있습니다. 개인적으로 배포 가능한 오픈소스 LLM이 비슷한 수준의 코드 추론 성능을 달성할 수 있을까요?

Yingwei Ma 등 연구진은 이 질문에 대한 답을 제시하기 위해 테스트 시간 연산(Test-Time Compute, TTC) 확장 프레임워크를 제안했습니다. 이 프레임워크는 더 큰 모델 대신 추론 시간 연산을 늘려 성능을 향상시키는 혁신적인 접근 방식입니다.

연구진은 내부 TTC와 외부 TTC라는 두 가지 상호 보완적인 전략을 제시했습니다. 내부 TTC는 실제 소프트웨어 저장소를 활용하여 결함 위치 파악 및 패치 생성과 같은 다단계 추론 과정을 시작하는 개발 맥락 기반 경로 합성(development-contextualized trajectory synthesis) 방법을 도입했습니다. 또한, 정확성과 복잡성을 엄격하게 평가하여 경로의 품질을 향상시키는 기각 샘플링(rejection sampling) 기법을 활용했습니다.

외부 TTC는 보상 모델과 실행 검증으로 안내되는 개발 프로세스 기반 검색(development-process-based search) 전략을 제안했습니다. 이 접근 방식은 개발 과정의 중요한 의사 결정 지점에 집중적으로 연산 자원을 할당하여 기존의 단순한 ‘종착점만 검증’하는 방식의 한계를 극복합니다.

SWE-bench Verified에 대한 평가 결과, 32B 모델이 46%의 문제 해결률을 달성하여 DeepSeek R1 671B 및 OpenAI o1과 같은 훨씬 더 큰 모델을 능가하는 성능을 보였습니다. 또한, 소프트웨어 엔지니어링 에이전트 내에서 테스트 시간 확장 현상을 경험적으로 검증하여, 모델이 점점 더 어려운 문제에 더 많은 토큰을 동적으로 할당함으로써 추론 능력이 향상됨을 확인했습니다.

연구진은 향후 연구를 촉진하기 위해 모든 훈련 데이터, 모델 및 코드를 공개했습니다 (https://github.com/yingweima2022/SWE-Reasoner). 이 연구는 모델의 크기보다 추론 시간 연산의 효율적인 활용이 더 중요함을 보여주는 중요한 결과를 제시하며, 소프트웨어 엔지니어링 분야에 큰 영향을 미칠 것으로 기대됩니다. 🤔 앞으로 이러한 연구가 소프트웨어 개발 과정을 어떻게 변화시킬지, 그리고 어떤 새로운 가능성을 열어줄지 기대됩니다! 🚀

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute

Published: (Updated: )

Author: Yingwei Ma, Yongbin Li, Yihong Dong, Xue Jiang, Rongyu Cao, Jue Chen, Fei Huang, Binhua Li

http://arxiv.org/abs/2503.23803v2