딥러닝의 속도 혁명: 초고속 비디오 생성을 위한 DraftAttention


중국 연구진이 개발한 DraftAttention은 저해상도 어텐션 맵을 이용해 비디오 생성 속도를 최대 1.75배 향상시키는 혁신적인 프레임워크입니다. GPU 하드웨어 최적화를 통해 계산 비용을 줄이고, 기존 방식보다 뛰어난 비디오 품질을 제공합니다.

related iamge

최근 딥러닝 기반 비디오 생성 모델(DiTs)이 놀라운 성능을 보여주고 있지만, 엄청난 계산 비용이 상용화의 걸림돌이 되고 있습니다. 8초 분량의 720p 비디오 생성에 수십 분이 걸리는 현실은, 더욱 발전된 기술을 갈망하게 만듭니다.

하지만 희망적인 소식이 있습니다! 중국 과학자팀(Xuan Shen, Chenxia Han 외)이 개발한 DraftAttention 이라는 혁신적인 프레임워크가 이 문제에 대한 해결책을 제시했습니다. 이들은 기존 모델의 어텐션 연산에 소요되는 시간이 전체 처리 시간의 80% 이상을 차지한다는 점에 주목했습니다.

DraftAttention은 GPU에서 동적 스파스 어텐션을 활용하여 비디오 확산 트랜스포머의 속도를 획기적으로 향상시키는, 학습이 필요 없는 프레임워크입니다. 핵심은 저해상도 어텐션 맵 입니다. 이 맵은 압축된 잠재 공간에서 프레임 간의 특징 맵을 다운샘플링하여 생성됩니다. 이를 통해, 수십만 개의 토큰으로 구성된 잠재 공간에서 더 높은 수준의 수용 영역을 확보할 수 있습니다.

이 저해상도 어텐션 맵은 각 특징 맵 내부의 공간적 중복성과 프레임 간의 시간적 중복성을 드러냅니다. DraftAttention은 이 맵을 기반으로 쿼리, 키, 밸류를 재정렬하여 고해상도에서 스파스 어텐션 계산을 안내하고, 계산 후 원래 순서로 복원합니다. 이러한 재정렬은 하드웨어 최적화된 실행과 일치하는 구조적 스파스성을 가능하게 합니다.

연구팀은 이론적 분석을 통해 저해상도 어텐션 맵이 전체 어텐션을 정확하게 근사함을 보여주었으며, 이를 통해 정확한 스파스 어텐션 구축에 대한 신뢰할 수 있는 안내를 제공합니다. 실험 결과, DraftAttention은 기존 스파스 어텐션 기법보다 비디오 생성 품질이 우수하며, GPU에서 최대 1.75배의 속도 향상을 달성했습니다.

코드를 통해 직접 확인해 보세요! 이 연구는 딥러닝 기반 비디오 생성 기술의 실용화를 한층 앞당길 획기적인 성과로 평가됩니다. 앞으로 더욱 빠르고 효율적인 비디오 생성 기술의 발전을 기대해 봅니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance

Published:  (Updated: )

Author: Xuan Shen, Chenxia Han, Yufa Zhou, Yanyue Xie, Yifan Gong, Quanyi Wang, Yiwei Wang, Yanzhi Wang, Pu Zhao, Jiuxiang Gu

http://arxiv.org/abs/2505.14708v1