A*-Decoding: 토큰 효율적인 추론 확장의 혁신

A*-Decoding은 제한된 컴퓨팅 자원에서도 우수한 성능을 발휘하는 혁신적인 추론 전략으로, 기존 방식보다 적은 자원으로 동등하거나 더 나은 결과를 달성하여 언어 모델의 효율적인 배포에 새로운 가능성을 제시합니다.

A*-Decoding: 토큰 효율적인 추론 확장의 혁신

최근 언어 모델의 성능 향상을 위한 연구가 활발하게 진행되고 있는 가운데, 매개변수 확장 대신 추론 시간 확장에 초점을 맞춘 새로운 방법이 등장했습니다. Giannis Chatziveroglou가 제시한 A-Decoding이 바로 그 주인공입니다. 이 논문은 복잡한 추론 작업에서 언어 모델의 성능을 향상시키기 위해 A 탐색 알고리즘 기반의 새로운 추론 전략을 제안합니다.

기존의 Best-of-N이나 Particle Filtering 같은 방법들은 특정 컴퓨팅 자원 내에서 강력한 성능 향상을 보였지만, 해당 자원을 추론 과정에서 최적으로 활용하는 부분은 미흡했습니다. A*-Decoding은 이러한 문제점을 해결하기 위해 등장했습니다. A* 알고리즘을 활용하여 부분적인 해결책들의 상태 공간에서 구조화된 탐색을 수행하고, 외부 프로세스 감독 신호를 통해 유망한 연속을 식별하여 제한된 컴퓨팅 자원을 최적으로 활용하는 것이 핵심입니다.

실험 결과는 놀랍습니다. A*-Decoding은 기존의 강력한 추론 확장 기법들과 동등한 성능을 달성하면서 최대 3배 적은 토큰과 30% 적은 PRM 패스를 사용했습니다. 이는 컴퓨팅 자원의 효율적인 활용을 의미합니다. 더욱 놀라운 것은 MATH500과 AIME 2024 벤치마크에서의 성과입니다. Llama-3.2-1B-Instruct 모델에 A*-Decoding을 적용한 결과, 파라미터 수가 70배나 큰 Llama-3.1-70B-Instruct 모델과 동등한 성능을 달성했습니다. Qwen3-1.7B 모델에서도 o1 수준의 추론 정확도를 달성하는 성과를 보였습니다.

이러한 결과는 구조화된 탐색을 통한 디코딩의 강력함을 보여주며, 단순한 샘플링이나 규모 확장에 의존하는 기존 방식의 대안을 제시합니다. A*-Decoding은 제한된 자원으로도 고성능을 달성할 수 있다는 것을 증명하며, 보다 효율적이고 확장 가능한 언어 모델 배포를 위한 새로운 가능성을 열었습니다. 앞으로 더욱 효율적이고 확장성 있는 언어 모델 배포를 위한 연구가 활발하게 이어질 것으로 기대됩니다. 🎉

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] A*-Decoding: Token-Efficient Inference Scaling

Published: (Updated: )

Author: Giannis Chatziveroglou

http://arxiv.org/abs/2505.13672v1