블록버스터: AI 연산 융합의 혁신 (1부)

오퍼 데켈의 Blockbuster 프레임워크는 계층적 메모리 구조를 가진 다양한 아키텍처에서 AI 연산 융합을 가능하게 하는 혁신적인 기술입니다. 블록 프로그램을 이용한 데이터 이동 모델링과 2단계 알고리즘(후보 선택 및 융합)을 통해 기존 규칙 기반 융합 알고리즘의 한계를 뛰어넘는 성능을 보여줍니다. Flash Attention 커널 재발견 및 LayerNorm, RMSNorm과 다른 연산의 융합 성공 사례를 통해 그 효과를 입증했습니다.

꿈의 AI 성능 향상을 위한 혁신적인 프레임워크: Blockbuster

최근 AI 분야의 뜨거운 감자, 바로 연산 융합(Operator Fusion) 입니다. 더 빠르고 효율적인 AI 추론을 위해 여러 연산을 하나로 통합하는 기술인데요, 오퍼 데켈이 이끄는 연구팀이 이 분야에 혁신적인 프레임워크, Blockbuster를 선보였습니다! 🎉

Blockbuster는 GPU, CPU, AI 가속기 칩 등 다양한 아키텍처에서 활용 가능한 범용성을 자랑합니다. 핵심은 바로 블록 프로그램(Block Program) 이라는 그래프 기반 표현 방식입니다. 이 방식은 데이터가 메모리 계층(메모리의 여러 단계) 사이를 이동하는 과정을 명확하게 모델링합니다. 마치 잘 짜인 오케스트라처럼, 데이터의 흐름을 정교하게 제어하여 연산 융합의 효율을 극대화하는 것이죠. 🎼

Blockbuster의 핵심은 두 개의 알고리즘으로 구성된 연산 융합 절차입니다. 먼저, 후보 선택 알고리즘이 융합 가능한 연산들을 찾아내고, 이어 융합 알고리즘이 실제로 연산들을 하나로 합칩니다. 이러한 이중 구조는 특히 대규모 AI 프로그램에서 강력한 성능을 발휘합니다.

본 논문은 규칙 기반 융합 알고리즘에 초점을 맞추고 있는데, 기존 알고리즘과의 차별점은 바로 메모리 계층 간 데이터 이동을 직접적으로 모델링한다는 점입니다. 이를 통해 놀라운 결과를 얻었는데요, 실제로 잘 알려진 Flash Attention 커널을 자동으로 재발견하는 것은 물론, LayerNorm과 행렬 곱셈, 그리고 RMSNorm과 FNN-SwiGLU의 융합까지 성공적으로 시연했습니다! 후자의 경우, 세 개의 행렬 곱셈, 하다마르 곱, 축소 연산, 그리고 여러 원소별 연산이 하나의 거대 커널(Mega-kernel) 로 통합되었다는 점이 인상적입니다. 🤯

Blockbuster는 단순히 연산을 융합하는 것을 넘어, AI 성능 향상을 위한 새로운 지평을 열었습니다. 다음 글에서는 Blockbuster의 후보 선택 알고리즘에 대해 자세히 살펴보도록 하겠습니다. 기대해주세요! ✨

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Blockbuster, Part 1: Block-level AI Operator Fusion

Published: (Updated: )

Author: Ofer Dekel

http://arxiv.org/abs/2505.07829v1