어텐션 없는 추론의 확장: 새로운 AI 모델의 등장


Zhao, Wu, Kong 등 연구진이 발표한 "Scaling Reasoning without Attention" 논문은 어텐션 메커니즘이 없는 새로운 언어 모델을 제시합니다. Mamba-2의 SSD 계층을 기반으로, 고정 메모리, 상수 시간 추론을 가능하게 하여 효율성을 높였으며, PromptCoT 기반 2단계 커리큘럼 파인튜닝을 통해 성능을 향상시켰습니다. 실험 결과, 7B 매개변수 모델이 기존 대규모 모델들을 능가하는 성능을 보였습니다.

related iamge

최근 대규모 언어 모델(LLM)이 복잡한 추론 작업에서 놀라운 발전을 이루었지만, 여전히 아키텍처의 비효율성과 고난도 분야에 대한 구조적 파인튜닝 부족이라는 두 가지 핵심적인 과제에 직면해 있습니다. Zhao, Wu, Kong 등의 연구진이 발표한 새로운 논문, "Scaling Reasoning without Attention"은 이러한 문제들을 해결하는 획기적인 모델을 제시합니다.

혁신적인 설계: 어텐션 메커니즘의 탈피

이 모델은 Mamba-2의 상태 공간 이중(SSD) 계층을 기반으로, 자기 어텐션과 키-밸류 캐싱이 필요 없는 어텐션 없는 언어 모델입니다. 이는 고정 메모리, 상수 시간 추론을 가능하게 하여 기존 트랜스포머 기반 모델의 비효율성 문제를 해결하는 핵심적인 돌파구입니다. 이는 마치, 복잡한 기계식 시계 대신 간결하고 효율적인 디지털 시계를 사용하는 것과 같은 혁신입니다.

데이터 중심 학습 전략: PromptCoT 기반 커리큘럼 학습

단순히 아키텍처만 개선한 것이 아닙니다. 복잡한 추론 능력 향상을 위해, 연구진은 추상적 개념 선택과 근거 기반 생성을 통해 교육적으로 구조화된 문제를 생성하는 PromptCoT 합성 패러다임을 기반으로 2단계 커리큘럼 파인튜닝 전략을 제안했습니다. 이는 마치 학생에게 단계별로 교육 과정을 제공하여 학습 효율을 높이는 것과 같은 효과를 가지고 있습니다.

놀라운 성능: 대규모 모델 뛰어넘어

실험 결과는 이 모델의 뛰어난 성능을 증명합니다. 7B 매개변수를 가진 모델은 동일한 규모의 강력한 트랜스포머 및 하이브리드 모델을 능가하며, 심지어 훨씬 큰 27B 매개변수의 Gemma3 모델보다 AIME 24에서 2.6%, AIME 25에서 0.6%, Livecodebench에서 3.0% 더 높은 정확도를 기록했습니다. 이는 단순한 성능 향상을 넘어, 상태 공간 모델이 어텐션 기반 아키텍처를 대체할 수 있는 효율적이고 확장 가능한 대안임을 보여주는 중요한 결과입니다.

미래를 향한 전망

이 연구는 어텐션 메커니즘에 대한 의존성을 극복하고, 효율성과 성능을 동시에 개선한 새로운 패러다임을 제시합니다. 이는 향후 AI 모델 개발에 중요한 영향을 미칠 것으로 예상되며, 더욱 효율적이고 강력한 AI 시스템의 개발을 위한 새로운 가능성을 열어줄 것입니다. 이러한 발전은 단순한 기술적 진보를 넘어, 우리가 AI와 상호 작용하는 방식에 대한 근본적인 변화를 가져올 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Scaling Reasoning without Attention

Published:  (Updated: )

Author: Xueliang Zhao, Wei Wu, Lingpeng Kong

http://arxiv.org/abs/2505.22425v1