AI 가속화의 혁신: MXDOTP, 8비트 부동소수점 연산의 새로운 지평을 열다


MXDOTP는 8비트 MXFP8 부동소수점 형식을 위한 RISC-V 명령어 집합 확장으로, AI 시스템의 에너지 효율적인 점곱 연산을 가속화합니다. 소프트웨어 기반 방식 대비 25배 속도 향상 및 12.5배 에너지 효율 향상을 달성하여 AI 하드웨어 발전에 기여할 것으로 예상됩니다.

related iamge

최근 발표된 연구 논문에서, Gamze İslamoğlu를 비롯한 연구팀은 인공지능(AI) 시스템의 에너지 효율을 획기적으로 높일 수 있는 새로운 RISC-V 명령어 집합 확장 기술인 MXDOTP를 선보였습니다. MXDOTP는 특히 8비트 MXFP8 부동소수점 형식에 초점을 맞춰, AI 애플리케이션에서 핵심적인 선형 대수 연산인 점곱 연산(dot product) 을 가속화하는 데 탁월한 성능을 발휘합니다.

기존의 저비트 부동소수점 형식과 달리, MX(Microscaling) 표준 형식은 블록 단위의 공유 지수 스케일과 요소별 값을 결합하여 정확도를 향상시킵니다. 하지만 MX 형식에서 효율적으로 점곱 연산을 수행하려면 특수한 하드웨어 지원이 필요합니다. 바로 이러한 필요성에 따라 MXDOTP가 탄생했습니다.

연구팀은 오픈소스 Snitch RISC-V 코어에 전용 MXFP8 점곱 누적 유닛을 추가하여 MXDOTP를 구현했습니다. 이 유닛은 64비트 입력으로 패킹된 8개의 8비트 피연산자 블록을 처리하며, Snitch의 스트림 의미 레지스터(SSR)를 활용하여 최대 80%의 활용도를 달성합니다. 이는 레지스터 파일 수정 없이 Snitch 코어 아키텍처에 미치는 영향을 최소화하면서 성능을 극대화하는 전략입니다.

12nm FinFET 공정으로 구현된 8개의 MXDOTP 확장 코어 클러스터는 0.8V, 1GHz에서 MXFP8 행렬 곱셈 연산 시 최대 356 GFLOPS/W의 성능을 기록했습니다. 이는 소프트웨어 기반 방식(FP8 입력을 FP32로 형변환하여 정밀도를 높이고 명시적인 블록 스케일링 적용)에 비해 25배의 속도 향상12.5배의 에너지 효율 향상을 가져왔으며, 면적 증가는 겨우 5.1%에 불과합니다.

MXDOTP는 AI 시스템의 에너지 효율과 성능을 동시에 향상시키는 획기적인 기술로, 앞으로 AI 하드웨어 발전에 중요한 역할을 할 것으로 기대됩니다. 특히, 에너지 효율이 중요한 모바일 및 임베디드 AI 애플리케이션에서 그 효과가 더욱 클 것으로 예상됩니다. 향후 MXDOTP의 발전과 더욱 다양한 AI 애플리케이션으로의 확장이 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MXDOTP: A RISC-V ISA Extension for Enabling Microscaling (MX) Floating-Point Dot Products

Published:  (Updated: )

Author: Gamze İslamoğlu, Luca Bertaccini, Arpan Suravi Prasad, Francesco Conti, Angelo Garofalo, Luca Benini

http://arxiv.org/abs/2505.13159v1