중국 화웨이, 1350억 매개변수의 거대 언어 모델 'Pangu Ultra' 공개! Ascend NPU 기반의 놀라운 성능
화웨이가 Ascend NPU 기반으로 개발한 1350억 매개변수의 거대 언어 모델 Pangu Ultra는 depth-scaled sandwich normalization 기술과 8192개의 Ascend NPU를 활용한 시스템 최적화를 통해 Llama 405B, Mistral Large 2 등을 뛰어넘는 성능을 달성했습니다. Dense 모델 구조의 효율성을 입증하며, 향후 상용화를 통해 중국 AI 기술의 경쟁력 강화에 기여할 것으로 예상됩니다.

중국 AI 기술의 혁신: 화웨이 Pangu Ultra의 등장
최근 중국 기술 기업 화웨이가 자체 개발한 Ascend Neural Processing Units (NPUs)를 기반으로 한 거대 언어 모델(LLM) Pangu Ultra를 발표했습니다. 무려 1350억 개의 매개변수를 자랑하는 이 모델은 기존 최첨단 모델들을 뛰어넘는 성능으로 전 세계 AI 업계의 주목을 받고 있습니다.
깊은 모델 훈련의 난관 극복: depth-scaled sandwich normalization
거대 언어 모델 훈련은 막대한 자원과 복잡한 기술을 필요로 합니다. 특히, 모델의 깊이가 깊어질수록 훈련 과정에서 손실 스파이크(loss spikes) 현상이 발생하여 훈련이 불안정해지는 문제가 발생합니다. 화웨이 연구팀은 이 문제를 해결하기 위해 depth-scaled sandwich normalization이라는 새로운 기술을 제안했습니다. 이 기술은 깊은 모델의 훈련 과정에서 손실 스파이크를 효과적으로 제거하여 안정적인 훈련을 가능하게 합니다.
8192개 Ascend NPU의 힘: 대규모 훈련 시스템 최적화
Pangu Ultra는 13.2조 개의 다양하고 고품질 토큰으로 사전 훈련되었습니다. 이러한 대규모 훈련을 가능하게 한 것은 바로 8192개의 Ascend NPU를 활용한 화웨이의 뛰어난 시스템 최적화 기술입니다. 단순히 규모만 큰 것이 아니라 효율적인 시스템 설계를 통해 훈련 속도와 안정성을 모두 확보한 것입니다.
Dense 모델의 승리: Llama 405B, Mistral Large 2 뛰어넘다
Pangu Ultra는 기존의 Sparse 모델과 달리 Dense(밀집) 모델 구조를 채택했습니다. 매개변수 수는 Llama 405B나 Mistral Large 2보다 적지만, 다양한 벤치마크 평가에서 이들 모델을 능가하는 성능을 보여주었습니다. 심지어 매개변수 수가 훨씬 많은 DeepSeek-R1과도 경쟁력 있는 결과를 달성했습니다. 이는 Ascend NPU의 효율성과 Pangu Ultra의 설계 우수성을 보여주는 증거입니다.
상용화를 향한 발걸음: 미래를 위한 약속
화웨이는 Pangu Ultra 모델과 시스템을 상용 고객에게 제공할 계획입니다. 이는 중국 AI 기술의 경쟁력을 한층 더 강화하는 계기가 될 것으로 예상되며, 향후 AI 기술 발전에 큰 영향을 미칠 것으로 기대됩니다. Pangu Ultra의 등장은 중국이 AI 분야에서 세계적인 경쟁력을 확보하기 위한 노력의 결실이라 할 수 있습니다.
Reference
[arxiv] Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
Published: (Updated: )
Author: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
http://arxiv.org/abs/2504.07866v1