๐Ÿ”ฅHEADINFER: ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ ๊ทน๋ณต, ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด๋‹ค!


๋ณธ ๊ธฐ์‚ฌ๋Š” Cheng Luo ์™ธ 10๋ช…์˜ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ HEADINFER ๋…ผ๋ฌธ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์ธ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ ์ถ”๋ก  ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. HEADINFER๋Š” ํ—ค๋“œ ๋‹จ์œ„ ์˜คํ”„๋กœ๋”ฉ ์ „๋žต์„ ํ†ตํ•ด GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ 92% ๊ฐ์†Œ์‹œ์ผœ, 400๋งŒ ํ† ํฐ ์ถ”๋ก ์„ ๋‹จ์ผ ์†Œ๋น„์ž GPU์—์„œ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋„“ํžˆ๋Š” ์ค‘์š”ํ•œ ๋ฐœ์ „์œผ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.

related iamge

๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ์— ์‹œ๋‹ฌ๋ฆฌ๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ, ์ด์ œ HEADINFER๊ฐ€ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค!

์ตœ๊ทผ ์—„์ฒญ๋‚œ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•˜๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์ง€๋งŒ, ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ์น˜๋ช…์ ์ธ ๋ฌธ์ œ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, Transformer ๊ธฐ๋ฐ˜ LLM์€ ์ถ”๋ก  ๊ณผ์ •์—์„œ Key-Value ์บ์‹œ(KV ์บ์‹œ)์— ๊ณผ๋„ํ•œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋ชจํ•ฉ๋‹ˆ๋‹ค. Cheng Luo๋ฅผ ๋น„๋กฏํ•œ 10๋ช…์˜ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading"์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํš๊ธฐ์ ์ธ ํ•ด๊ฒฐ์ฑ…, HEADINFER๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

HEADINFER: ๋˜‘๋˜‘ํ•œ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ์˜ ๊ธฐ์ˆ 

HEADINFER์˜ ํ•ต์‹ฌ์€ ํ—ค๋“œ ๋‹จ์œ„ ์˜คํ”„๋กœ๋”ฉ ์ „๋žต์ž…๋‹ˆ๋‹ค. ๋ชจ๋“  Transformer ๊ณ„์ธต์˜ KV ์บ์‹œ๋ฅผ GPU์— ์™„์ „ํžˆ ์ €์žฅํ•˜๋Š” ๋Œ€์‹ , ์„ ํƒ์ ์ธ ์–ดํ…์…˜ ํ—ค๋“œ์˜ KV ์บ์‹œ๋งŒ GPU์— ์œ ์ง€ํ•˜๊ณ , ๋‚˜๋จธ์ง€๋Š” CPU RAM์œผ๋กœ ์˜คํ”„๋กœ๋”ฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ Llama-3-8B ๋ชจ๋ธ๊ณผ 100๋งŒ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์‚ฌ์šฉํ•œ ์‹คํ—˜์—์„œ ๊ทธ ๋†€๋ผ์šด ํšจ๊ณผ๋ฅผ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ๊ฐ€ํžˆ ์ถฉ๊ฒฉ์ ์ž…๋‹ˆ๋‹ค. GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋ฌด๋ ค 92%๋‚˜ ๊ฐ์†Œํ–ˆ์Šต๋‹ˆ๋‹ค! KV ์บ์‹œ์˜ GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์€ 128GB์—์„œ 1GB๋กœ, ์ „์ฒด GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์€ 207GB์—์„œ 17GB๋กœ ์ค„์—ˆ์Šต๋‹ˆ๋‹ค. ๋”์šฑ ๋†€๋ผ์šด ์ ์€, NVIDIA RTX 4090๊ณผ ๊ฐ™์€ 24GB ๋ฉ”๋ชจ๋ฆฌ์˜ ์†Œ๋น„์ž์šฉ GPU์—์„œ๋„ 400๋งŒ ํ† ํฐ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค๋Š” ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ๊ทผ์‚ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—†์ด ๋‹ฌ์„ฑํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

๋ฏธ๋ž˜๋ฅผ ํ–ฅํ•œ ๋„์•ฝ: HEADINFER์˜ ์˜๋ฏธ

HEADINFER๋Š” ๋‹จ์ˆœํ•œ ๊ธฐ์ˆ ์  ๊ฐœ์„ ์„ ๋„˜์–ด, ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋„“ํžˆ๋Š” ํ˜์‹ ์ ์ธ ๋ฐœ๊ฑธ์Œ์ž…๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์ œํ•œ๋˜์—ˆ๋˜ LLM์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ์‘์šฉ ๋ถ„์•ผ ํ™•์žฅ์— ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ ๋”์šฑ ๋ฐœ์ „๋œ LLM์˜ ๋“ฑ์žฅ๊ณผ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ์˜ ํ™œ์šฉ์„ ๊ฐ€์†ํ™”ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. HEADINFER์˜ ๋“ฑ์žฅ์€ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฏธ๋ž˜๋ฅผ ๋”์šฑ ๋ฐ๊ฒŒ ๋งŒ๋“ค์–ด ์ค„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ์œผ๋กœ ์ขŒ์ ˆํ–ˆ๋˜ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ๋Š” ์ƒˆ๋กœ์šด ํฌ๋ง์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ œ ๋” ํฐ ๋ชจ๋ธ, ๋” ๊ธด ๋ฌธ๋งฅ, ๋”์šฑ ํ˜์‹ ์ ์ธ AI ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ๊ธฐ๋Œ€ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Published: ย (Updated: )

Author: Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar

http://arxiv.org/abs/2502.12574v1