생성형 AI 시대의 숨겨진 강자: Tenstorrent의 Grayskull e75 분석
Tenstorrent의 Grayskull e75 RISC-V 가속기는 NVIDIA GPU 대비 원시 성능은 낮지만, 전력 효율이 뛰어나 생성형 AI 분야에서 경쟁력 있는 대안으로 떠오르고 있습니다. 본 논문은 Grayskull e75의 성능을 심층 분석하여 그 강점과 한계를 제시합니다.

최근 생성형 AI, 특히 대규모 언어 모델(LLM) 서비스의 폭발적인 성장은 계산 효율과 에너지 소비를 최적화하는 특수 하드웨어 아키텍처에 대한 수요를 급증시켰습니다. 이러한 흐름 속에서, Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini 세 연구원이 발표한 논문 "Tenstorrent's RISC-V MatMul Acceleration Capabilities"는 Tenstorrent의 Grayskull e75 RISC-V 가속기의 성능을 심층적으로 평가하여 주목을 받고 있습니다.
핵심은 바로 '저정밀도 수치 연산'입니다. LLM 계산의 기본 연산인 행렬 곱셈(MatMul)에서 저정밀도 연산을 사용하는 것이 성능 향상에 중요한 역할을 하며, Grayskull e75는 이 부분에서 강점을 보여줍니다. 논문에서는 Grayskull의 실행 모델, 그리드 크기, 행렬 차원, 데이터 형식, 그리고 수치 정밀도가 계산 효율에 미치는 영향을 상세히 분석하고 있습니다. 이는 단순한 성능 비교를 넘어, Grayskull의 작동 원리를 깊이 이해하는 데 도움을 줍니다.
그렇다면, Grayskull e75는 얼마나 경쟁력이 있을까요? 논문은 Intel Sapphire Rapids 프로세서와 NVIDIA V100, A100 GPU와의 비교 분석을 통해 그 답을 제시합니다. 결론적으로, NVIDIA GPU가 원시 성능에서는 앞서지만, Grayskull은 전력 소비 대비 계산 처리량 측면에서 상당한 경쟁력을 보여줍니다. 특히 BF16 정밀도에서 최대 1.55 TFLOPs/Watt의 놀라운 성능을 기록했습니다. 이는 에너지 효율을 중시하는 환경에서 Grayskull이 매력적인 대안이 될 수 있음을 시사합니다.
결론적으로, 이 논문은 단순한 성능 비교를 넘어, Grayskull e75의 아키텍처적 특징과 에너지 효율성을 종합적으로 분석하여, 생성형 AI 시대의 하드웨어 발전 방향에 대한 중요한 시사점을 제공합니다. 앞으로 Grayskull e75가 LLM 및 다양한 AI 애플리케이션에서 어떤 역할을 수행할지 귀추가 주목됩니다. 특히, 에너지 효율성을 중시하는 데이터센터나 임베디드 시스템에서 그 활용 가능성이 높을 것으로 예상됩니다.
Reference
[arxiv] Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
Published: (Updated: )
Author: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini
http://arxiv.org/abs/2505.06085v2