๐ฅHEADINFER: ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ๊ทน๋ณต, ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์๋ก์ด ์งํ์ ์ด๋ค!
๋ณธ ๊ธฐ์ฌ๋ Cheng Luo ์ธ 10๋ช ์ ์ฐ๊ตฌ์ง์ด ๋ฐํํ HEADINFER ๋ ผ๋ฌธ์ ๋ฐํ์ผ๋ก, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ์ถ๋ก ๊ธฐ์ ์ ๋ํ ํ์ ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์๊ฐํฉ๋๋ค. HEADINFER๋ ํค๋ ๋จ์ ์คํ๋ก๋ฉ ์ ๋ต์ ํตํด GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 92% ๊ฐ์์์ผ, 400๋ง ํ ํฐ ์ถ๋ก ์ ๋จ์ผ ์๋น์ GPU์์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์์ต๋๋ค. ์ด๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ ์ค์ํ ๋ฐ์ ์ผ๋ก ํ๊ฐ๋ฉ๋๋ค.

๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ ์๋ฌ๋ฆฌ๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ, ์ด์ HEADINFER๊ฐ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค!
์ต๊ทผ ์์ฒญ๋ ์ฑ๋ฅ์ ์๋ํ๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ง๋ง, ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ ๋ ์น๋ช ์ ์ธ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. ๋ฐ๋ก ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ ๋๋ค. ํนํ, Transformer ๊ธฐ๋ฐ LLM์ ์ถ๋ก ๊ณผ์ ์์ Key-Value ์บ์(KV ์บ์)์ ๊ณผ๋ํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋ชจํฉ๋๋ค. Cheng Luo๋ฅผ ๋น๋กฏํ 10๋ช ์ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ "HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading"์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ๊ธฐ์ ์ธ ํด๊ฒฐ์ฑ , HEADINFER๋ฅผ ์ ์ํฉ๋๋ค.
HEADINFER: ๋๋ํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ๊ธฐ์
HEADINFER์ ํต์ฌ์ ํค๋ ๋จ์ ์คํ๋ก๋ฉ ์ ๋ต์ ๋๋ค. ๋ชจ๋ Transformer ๊ณ์ธต์ KV ์บ์๋ฅผ GPU์ ์์ ํ ์ ์ฅํ๋ ๋์ , ์ ํ์ ์ธ ์ดํ ์ ํค๋์ KV ์บ์๋ง GPU์ ์ ์งํ๊ณ , ๋๋จธ์ง๋ CPU RAM์ผ๋ก ์คํ๋ก๋ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํ๊ธฐ์ ์ผ๋ก ์ค์ ๋๋ค. ์ฐ๊ตฌ์ง์ Llama-3-8B ๋ชจ๋ธ๊ณผ 100๋ง ํ ํฐ ์ํ์ค๋ฅผ ์ฌ์ฉํ ์คํ์์ ๊ทธ ๋๋ผ์ด ํจ๊ณผ๋ฅผ ์ฆ๋ช ํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ๊ฐํ ์ถฉ๊ฒฉ์ ์ ๋๋ค. GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ฌด๋ ค 92%๋ ๊ฐ์ํ์ต๋๋ค! KV ์บ์์ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 128GB์์ 1GB๋ก, ์ ์ฒด GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 207GB์์ 17GB๋ก ์ค์์ต๋๋ค. ๋์ฑ ๋๋ผ์ด ์ ์, NVIDIA RTX 4090๊ณผ ๊ฐ์ 24GB ๋ฉ๋ชจ๋ฆฌ์ ์๋น์์ฉ GPU์์๋ 400๋ง ํ ํฐ ์ถ๋ก ์ด ๊ฐ๋ฅํด์ก๋ค๋ ์ฌ์ค์ ๋๋ค. ์ด๋ ๊ธฐ์กด์ ๊ทผ์ฌ ์๊ณ ๋ฆฌ์ฆ ์์ด ๋ฌ์ฑํ ์ฑ๊ณผ์ ๋๋ค.
๋ฏธ๋๋ฅผ ํฅํ ๋์ฝ: HEADINFER์ ์๋ฏธ
HEADINFER๋ ๋จ์ํ ๊ธฐ์ ์ ๊ฐ์ ์ ๋์ด, ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ ํ์ ์ ์ธ ๋ฐ๊ฑธ์์ ๋๋ค. ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก ์ธํด ์ ํ๋์๋ LLM์ ์ฑ๋ฅ ํฅ์๊ณผ ์์ฉ ๋ถ์ผ ํ์ฅ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค. ์ด๋ ์์ผ๋ก ๋์ฑ ๋ฐ์ ๋ LLM์ ๋ฑ์ฅ๊ณผ ๋ค์ํ ๋ถ์ผ์์์ ํ์ฉ์ ๊ฐ์ํํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. HEADINFER์ ๋ฑ์ฅ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ฏธ๋๋ฅผ ๋์ฑ ๋ฐ๊ฒ ๋ง๋ค์ด ์ค ๊ฒ์ ๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ผ๋ก ์ข์ ํ๋ ์ฐ๊ตฌ์๋ค์๊ฒ๋ ์๋ก์ด ํฌ๋ง์ด ๋ ๊ฒ์ ๋๋ค. ์ด์ ๋ ํฐ ๋ชจ๋ธ, ๋ ๊ธด ๋ฌธ๋งฅ, ๋์ฑ ํ์ ์ ์ธ AI ์์ฉ ํ๋ก๊ทธ๋จ์ ๊ธฐ๋ํด ๋ณผ ์ ์์ต๋๋ค.
Reference
[arxiv] HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading
Published: ย (Updated: )
Author: Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar
http://arxiv.org/abs/2502.12574v1