SageAttention3: 추론과 훈련 모두를 위한 마이크로스케일 FP4 어텐션의 혁신


SageAttention3은 FP4 Tensor Cores를 활용한 추론 속도 향상과 8-bit 어텐션을 통한 훈련 효율 개선을 시도한 연구입니다. 추론에서는 5배의 속도 향상을 달성했으며, 미세 조정에서는 손실 없는 성능을 보였지만, 사전 훈련에서는 수렴 속도 저하가 관찰되었습니다. 이는 향후 대규모 모델 훈련의 효율성 향상에 중요한 시사점을 제공합니다.

related iamge

SageAttention3: 추론과 훈련 속도의 경계를 허무는 혁신적인 어텐션 메커니즘

최근 딥러닝 분야에서 어텐션 메커니즘은 필수적인 구성 요소로 자리매김했습니다. 하지만, 어텐션의 계산 복잡도는 $O(n^2)$로 알려져 있어, 대규모 모델의 처리 속도를 저해하는 주요 요인으로 작용해왔습니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 SageAttention3입니다.

장진타오(Jintao Zhang) 등 연구진은 Blackwell GPU의 새로운 FP4 Tensor Cores를 활용하여 어텐션 계산 속도를 획기적으로 향상시켰습니다. RTX5090에서 무려 1038 TOPS의 성능을 달성, 기존 최고 속도의 FlashAttention 대비 5배 향상이라는 놀라운 결과를 발표했습니다. 이는 단순한 속도 개선을 넘어, 다양한 모델에 플러그 앤 플레이 방식으로 적용 가능한 범용적인 성능 향상을 의미합니다. 이는 마치 낡은 자동차 엔진을 최첨단 엔진으로 교체하여 속도와 효율을 극대화하는 것과 같습니다.

하지만 연구진의 도전은 여기서 그치지 않았습니다. 기존의 저비트 어텐션 연구는 주로 추론 단계에 초점을 맞춰왔지만, SageAttention3 연구진은 훈련 과정 자체의 효율성 향상이라는 새로운 목표를 설정했습니다. 이들은 8-bit 어텐션을 고안하여, 정방향 및 역방향 전파 모두에 적용했습니다. 실험 결과, 미세 조정(fine-tuning) 작업에서는 손실 없는 성능을 달성했지만, 사전 훈련(pretraining) 과정에서는 수렴 속도가 다소 느려지는 것을 확인했습니다.

이는 마치 새로운 도로를 건설하는 것과 같습니다. 새로운 도로가 완성되면 (미세조정) 빠르고 효율적인 이동이 가능하지만, 건설 과정 (사전훈련) 자체는 시간이 더 걸릴 수 있다는 것을 의미합니다. 하지만, 미세 조정에서의 손실 없는 성능은 향후 대규모 모델 훈련의 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다.

본 연구는 Github (https://github.com/thu-ml/SageAttention)에서 공개될 예정입니다. SageAttention3의 등장은 단순한 성능 향상을 넘어, 딥러닝 모델의 개발과 활용에 있어 새로운 패러다임을 제시하는 중요한 이정표가 될 것으로 예상됩니다. 앞으로 어떻게 발전해 나갈지 기대되는 부분입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

Published:  (Updated: )

Author: Jintao Zhang, Jia Wei, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei Chen

http://arxiv.org/abs/2505.11594v1