빛의 속도로 작동하는 혁신적인 AI 어텐션 메커니즘: 일반화된 이웃 어텐션(GNA)


Ali Hassani 등 16명의 연구진이 발표한 논문은 일반화된 이웃 어텐션(GNA)을 통해 기존 어텐션 메커니즘의 속도 문제를 해결하고, 최대 46%의 속도 향상을 달성했습니다. NVIDIA Blackwell 아키텍처 기반의 구현과 오픈소스 공개를 통해 AI 분야의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

Ali Hassani 등 16명의 연구진이 발표한 논문 "Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light"는 인공지능 분야, 특히 컴퓨터 비전에서 핵심적인 역할을 하는 어텐션 메커니즘의 속도 문제를 획기적으로 해결할 가능성을 제시합니다.

기존 어텐션 메커니즘의 한계

기존의 스파스 어텐션 메커니즘, 특히 이웃 어텐션(Neighborhood Attention)은 셀프 어텐션 기준 대비 속도 향상을 지속적으로 달성하는 데 어려움을 겪었습니다. 이는 어텐션 인프라의 복잡성과 AI 하드웨어 아키텍처의 급속한 발전에 기인합니다. 많은 최첨단 기초 모델들은 어텐션에 크게 의존하며, O(n^2) 복잡성을 벗어나기 위해 안정적인 스파스성이 필요합니다.

일반화된 이웃 어텐션(GNA): 혁신적인 해결책

이 논문에서는 지역성에 초점을 맞춘 유망한 스파스 어텐션 메커니즘을 연구하여 성능 향상에 대한 분석 모델을 개선하고자 합니다. 연구진은 일반화된 이웃 어텐션(GNA) 을 제시하는데, 이는 슬라이딩 윈도우, 스트라이드 슬라이딩 윈도우, 블록 어텐션 등을 포괄하는 일반화된 모델입니다. GNA의 구현을 위한 다양한 설계 선택지를 고려하여, 주어진 환경에 대한 더욱 현실적인 속도 향상 상한선을 제공하는 시뮬레이터를 개발했습니다.

놀라운 성능 향상: 1.3 페타플롭/초의 효율

연구진은 NVIDIA Blackwell 아키텍처를 위해 설계된 최첨단 융합 다중 헤드 어텐션(FMHA) 커널 위에 GNA를 구현했습니다. 이 구현은 완벽하게 블록 스파스인 많은 경우에 이론적으로 가능한 최대 속도 향상을 완전히 실현하며, FP16에서 1.3 페타플롭/초의 효율적인 활용률을 달성했습니다. 이는 엄청난 성능 향상을 의미합니다.

실제 모델 적용 및 검증: 최대 46% 속도 향상

더 나아가, 연구진은 Cosmos-7B, HunyuanVideo, FLUX와 같은 기존의 생성 모델에 다양한 GNA 설정을 적용하여 성능을 평가했습니다. 그 결과, B200에서 최대 28%~46%의 종단 간 속도 향상을 달성했습니다. 놀랍게도 이러한 성능 향상은 추가적인 미세 조정 없이 이루어졌습니다. 이는 GNA의 실용성과 효율성을 보여주는 중요한 결과입니다.

오픈소스 공개: NATTEN 프로젝트

연구진은 개발한 시뮬레이터와 Blackwell 커널을 NATTEN 프로젝트를 통해 오픈소스로 공개할 예정입니다. 이는 다른 연구자들이 GNA를 활용하여 더욱 혁신적인 AI 모델을 개발하는 데 크게 기여할 것으로 기대됩니다. GNA는 AI 분야의 발전에 중요한 기여를 할 혁신적인 기술로 주목받고 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

Published:  (Updated: )

Author: Ali Hassani, Fengzhe Zhou, Aditya Kane, Jiannan Huang, Chieh-Yun Chen, Min Shi, Steven Walton, Markus Hoehnerbach, Vijay Thakkar, Michael Isaev, Qinsheng Zhang, Bing Xu, Haicheng Wu, Wen-mei Hwu, Ming-Yu Liu, Humphrey Shi

http://arxiv.org/abs/2504.16922v1