NVIDIA의 획기적인 AI 모델 Nemotron-H: 추론 속도의 혁명


NVIDIA가 개발한 Nemotron-H는 Mamba 레이어와 MiniPuzzle 압축 기술을 통해 추론 속도를 획기적으로 향상시킨 AI 모델입니다. FP8 기반 훈련 레시피를 통해 효율성을 더욱 높였으며, Hugging Face 등 주요 플랫폼에서 지원될 예정입니다.

related iamge

인공지능(AI) 모델의 발전은 곧 추론 속도의 향상과 직결됩니다. 더욱 정교한 추론 능력을 위해서는 효율적인 추론이 필수적이며, 이러한 시대적 요구에 발맞춰 NVIDIA는 혁신적인 AI 모델 Nemotron-H를 선보였습니다.

Nemotron-H는 8B 및 56B/47B 크기의 하이브리드 Mamba-Transformer 모델 시리즈로, 주어진 정확도 수준에서 추론 비용을 획기적으로 줄이는 데 성공했습니다. 기존 Transformer 모델의 자기-주의(self-attention) 레이어 대부분을 Mamba 레이어로 대체하여 계산량과 메모리 사용량을 일정하게 유지하면서 속도를 향상시켰습니다. 그 결과, Qwen-2.5-7B/72B 및 Llama-3.1-8B/70B와 같은 다른 최첨단 오픈소스 Transformer 모델들과 비교하여 최대 3배 빠른 추론 속도를 제공하며, 동시에 동등하거나 더 나은 정확도를 보여줍니다.

더 나아가 NVIDIA는 MiniPuzzle이라는 새로운 압축 기술을 개발하여 56B 모델에서 Nemotron-H-47B-Base를 만들었습니다. MiniPuzzle은 가지치기(pruning)와 증류(distillation)를 결합한 기술로, 모델 크기를 줄이면서도 56B 모델과 유사한 정확도를 유지하면서 추론 속도를 20% 향상시켰습니다.

또한, NVIDIA는 FP8 기반 훈련 레시피를 도입하여 BF16 기반 훈련과 동등한 결과를 얻었습니다. 이 레시피는 56B 모델을 훈련하는 데 사용되었으며, 추론 속도와 효율성을 더욱 높였습니다.

모든 Nemotron-H 모델은 Hugging Face, NeMo, Megatron-LM 등의 주요 플랫폼에서 지원될 예정이어서, 개발자들의 접근성을 높이고 AI 연구 및 개발을 가속화할 것으로 기대됩니다. Nemotron-H는 단순한 성능 향상을 넘어, AI 모델의 실용성과 접근성을 높이는 중요한 이정표를 세운 것으로 평가됩니다. 향후 AI 발전에 미칠 영향이 주목됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

Published:  (Updated: )

Author: NVIDIA, :, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renduchintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Tao, Anna Shors, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Yin, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Eric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fuxiao Liu, Gargi Prasad, Gerald Shen, Guilin Liu, Guo Chen, Haifeng Qian, Helen Ngo, Hongbin Liu, Hui Li, Igor Gitman, Ilia Karmanov, Ivan Moshkov, Izik Golan, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jarno Seppanen, Jason Lu, Jason Sewall, Jiaqi Zeng, Jiaxuan You, Jimmy Zhang, Jing Zhang, Jining Huang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jon Barker, Jonathan Cohen, Joseph Jennings, Jupinder Parmar, Karan Sapra, Kari Briski, Kateryna Chumachenko, Katherine Luna, Keshav Santhanam, Kezhi Kong, Kirthi Sivamani, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Matthieu Le, Matvei Novikov, Mehrzad Samadi, Michael Andersch, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mike Ranzinger, Mikolaj Blaz, Misha Smelyanskiy, Mohamed Fawzy, Mohammad Shoeybi, Mostofa Patwary, Nayeon Lee, Nima Tajbakhsh, Ning Xu, Oleg Rybakov, Oleksii Kuchaiev, Olivier Delalleau, Osvald Nitski, Parth Chadha, Pasha Shamis, Paulius Micikevicius, Pavlo Molchanov, Peter Dykas, Philipp Fischer, Pierre-Yves Aquilanti, Piotr Bialecki, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi, Rahul Kandu, Ran El-Yaniv, Raviraj Joshi, Roger Waleffe, Ruoxi Zhang, Sabrina Kavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Clay, Shelby Thomas, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Swetha Bhendigeri, Syeda Nahida Akter, Szymon Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenliang Dai, Wonmin Byeon, Xiaowei Ren, Yao Xu, Yejin Choi, Yian Zhang, Ying Lin, Yoshi Suhara, Zhiding Yu, Zhiqi Li, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zijia Chen

http://arxiv.org/abs/2504.03624v2