잊는 트랜스포머의 혁신: 적응형 계산 가지치기(ACP)로 속도와 효율성을 높이다

몬트리올 대학교 연구팀이 Forgetting Transformer(FoX)의 효율성을 극대화하는 적응형 계산 가지치기(ACP) 기법을 개발, 다양한 모델 크기와 컨텍스트 길이에서 성능 저하 없이 70%의 FLOP 감소 및 10~35%의 학습 처리량 향상을 달성했습니다.

최근 뜨거운 감자인 잊는 트랜스포머(Forgetting Transformer, FoX)에 대한 놀라운 연구 결과가 발표되었습니다. 몬트리올 대학교의 Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, 그리고 Aaron Courville 연구팀은 FoX의 효율성을 극대화하는 획기적인 기법, 적응형 계산 가지치기(Adaptive Computation Pruning, ACP) 를 개발했습니다.

FoX는 기존 트랜스포머와 달리 '잊는 문(forget gate)'을 소프트맥스 어텐션에 통합하여, 기존보다 성능이 더 우수하거나 동등한 결과를 보여주었습니다. 하지만 많은 어텐션 헤드가 빠르게 정보를 '잊는' 경향이 있었는데, 이는 각 시간 단계에서 주로 지역적 컨텍스트에 의존한다는 것을 의미합니다.

연구팀은 바로 이 점에 착안하여 ACP를 개발했습니다. ACP는 '잊는 문'에 의해 강하게 감소된 입출력 의존성을 포함하는 계산을 동적으로 가지치기하는 방법입니다. 동적으로 설정되는 가지치기 임계값을 사용하여, 가지치기된 어텐션 가중치가 무시해도 될 정도로 작게 유지됩니다.

연구팀은 FoX를 이용한 언어 모델 사전 학습에 ACP를 적용하여 그 효과를 검증했습니다. 그 결과, 다양한 모델 크기와 컨텍스트 길이에 걸쳐 소프트맥스 어텐션의 FLOP 수를 약 70%나 줄였습니다. 이는 학습 처리량을 약 10%에서 35%까지 향상시키는 놀라운 결과입니다. 특히 긴 컨텍스트일수록 계산 절약 효과가 더욱 컸습니다. 더욱 놀라운 점은 이러한 속도 향상이 성능 저하 없이 이루어졌다는 것입니다.

연구팀은 가지치기 패턴 검사와 다양한 어텐션 헤드에서의 FLOP 절약 분포 분석 등 심층적인 분석을 통해 ACP의 효과를 더욱 명확히 밝혔습니다. 자세한 내용은 GitHub 저장소에서 확인할 수 있습니다.

이번 연구는 FoX의 잠재력을 극대화하고, 더욱 빠르고 효율적인 AI 모델 개발의 가능성을 열어주는 중요한 이정표가 될 것입니다. 앞으로 ACP와 같은 효율적인 기법들이 더욱 발전하여 AI 기술의 발전 속도를 가속화할 것으로 기대됩니다. 더 나아가, 에너지 효율적인 AI 시스템 구축에도 크게 기여할 것으로 전망됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Adaptive Computation Pruning for the Forgetting Transformer

Published: (Updated: )

Author: Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

http://arxiv.org/abs/2504.06949v1