팡구울트라: 중국이 선보인 1350억 매개변수의 초거대 언어 모델


중국 연구진이 개발한 1350억 매개변수의 밀집형 초거대 언어 모델 'Pangu Ultra'는 Ascend NPU를 활용한 효율적인 학습 시스템과 depth-scaled sandwich normalization 기법을 통해 기존 모델들을 능가하는 성능을 달성했습니다. 향후 상용화를 통해 AI 분야에 큰 영향을 미칠 것으로 예상됩니다.

related iamge

중국 연구진이 개발한 초거대 언어 모델 팡구울트라(Pangu Ultra) 가 AI 업계에 큰 반향을 일으키고 있습니다. 무려 1350억 개의 매개변수를 자랑하는 이 모델은 기존의 스파스(Sparse) 모델과는 달리, 모든 매개변수가 밀집(Dense)된 구조를 가지고 있습니다. 이는 밀집형 모델로서 상당한 성능을 달성했다는 점에서 주목할 만합니다.

팡구울트라는 13.2조 개의 다양하고 고품질 토큰을 학습 데이터로 사용했습니다. 단순히 데이터의 양만 많은 것이 아니라, 질적으로 우수한 데이터를 활용하여 모델의 성능을 극대화했다는 점이 인상적입니다. 여기서 핵심은 바로 Ascend NPU입니다. 8192개의 Ascend NPU를 활용하여 대규모 모델 학습을 효율적으로 수행했으며, 이를 통해 1350억 매개변수의 밀집형 모델 학습이 가능해졌습니다.

하지만 대규모 모델 학습에는 많은 어려움이 따릅니다. 특히, 깊은 모델일수록 손실 스파이크(Loss Spike) 현상으로 학습이 불안정해지는 문제가 발생하기 쉽습니다. 연구진은 이 문제를 해결하기 위해 **'depth-scaled sandwich normalization'**이라는 새로운 기법을 제안했습니다. 이 기법은 깊은 모델의 학습 과정에서 발생하는 손실 스파이크를 효과적으로 제거하여 안정적인 학습을 가능하게 했습니다.

결과는 놀랍습니다. 다양한 벤치마크 평가에서 팡구울트라는 Llama 405B, Mistral Large 2와 같은 최첨단 밀집형 LLM들을 뛰어넘는 성능을 보였으며, 심지어 더 많은 매개변수를 가진 스파스 모델인 DeepSeek-R1과도 경쟁력 있는 결과를 도출했습니다. 이는 밀집형 모델의 한계를 뛰어넘는 쾌거로, Ascend NPU의 성능과 연구진의 시스템 최적화 기술의 우수성을 보여줍니다. 이 연구는 1000억 개 이상의 매개변수를 가진 밀집형 모델을 효율적이고 효과적으로 학습할 수 있는 가능성을 열었다는 점에서 큰 의미를 지닙니다. 향후 상용 고객에게 모델과 시스템을 제공할 계획이라고 합니다.

[요약]

  • 1350억 매개변수의 밀집형 초거대 언어 모델 Pangu Ultra 개발 성공
  • 8192개 Ascend NPU를 활용한 효율적인 학습 시스템 구축
  • Depth-scaled sandwich normalization 기법을 통한 학습 안정성 확보
  • Llama 405B, Mistral Large 2 등을 능가하는 성능 달성
  • 향후 상용화 예정

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

Published:  (Updated: )

Author: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu

http://arxiv.org/abs/2504.07866v2