텐스토렌트의 RISC-V 매트릭스 곱셈 가속기 성능 평가: 놀라운 에너지 효율
Tenstorrent의 Grayskull e75 RISC-V 가속기는 에너지 효율 면에서 뛰어난 성능을 보이며, LLM 계산에 있어 새로운 가능성을 제시합니다. NVIDIA GPU 대비 경쟁력 있는 성능을 보여주며, 특히 BF16에서 1.55 TFLOPs/Watt의 놀라운 에너지 효율을 기록했습니다.

대규모 언어 모델(LLM) 기반 생성형 AI 서비스의 수요 증가로 인해, 계산 효율과 에너지 소비를 최적화하는 특수 하드웨어 아키텍처에 대한 필요성이 커지고 있습니다. Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini 세 연구원이 발표한 논문 "Tenstorrent's RISC-V MatMul Acceleration Capabilities 평가"는 이러한 흐름에 주목하여 Tenstorrent Grayskull e75 RISC-V 가속기의 성능을 심층적으로 분석했습니다.
이 논문의 핵심은 LLM 계산의 핵심인 기본 선형 대수 커널의 저정밀도 수치 연산 성능 평가에 있습니다. 연구팀은 Grayskull의 실행 모델, 그리드 크기, 행렬 차원, 데이터 형식, 그리고 수치 정밀도가 계산 효율에 어떤 영향을 미치는지 자세히 분석했습니다. 단순히 성능만 비교하는 것이 아니라, 에너지 효율까지 고려한 섬세한 접근이 돋보입니다.
특히, Intel Sapphire Rapids 프로세서와 NVIDIA V100, A100 GPU와 Grayskull의 성능을 비교 분석한 결과는 주목할 만합니다. NVIDIA GPU가 원시 성능 면에서는 우위를 점했지만, Grayskull은 전력 소비와 계산 처리량 간의 경쟁력 있는 절충안을 제시했습니다. 놀랍게도 BF16에서 최대 1.55 TFLOPs/Watt의 성능을 달성하며 에너지 효율 면에서 뛰어난 경쟁력을 보였습니다.
이 연구는 단순한 하드웨어 성능 비교를 넘어, 에너지 효율이라는 중요한 요소를 고려하여 LLM 시대의 컴퓨팅 아키텍처 설계에 대한 새로운 시각을 제시합니다. 앞으로의 연구는 Grayskull과 같은 에너지 효율적인 가속기의 발전 방향을 제시하는 중요한 이정표가 될 것입니다. 이러한 혁신은 더욱 강력하고 지속 가능한 AI 시스템 구축의 가능성을 열어줄 것입니다.
핵심 내용:
- Tenstorrent Grayskull e75 RISC-V 가속기의 저정밀도 수치 연산 성능 평가
- 에너지 효율(BF16에서 최대 1.55 TFLOPs/Watt 달성)
- NVIDIA GPU와의 성능 비교 분석
- Grayskull의 실행 모델, 그리드 크기, 행렬 차원, 데이터 형식 및 수치 정밀도 분석
Reference
[arxiv] Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
Published: (Updated: )
Author: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini
http://arxiv.org/abs/2505.06085v1