๐Ÿ”ฅ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์œ„ํ•œ ํ˜์‹ ์ ์ธ KV ์บ์‹œ ๊ด€๋ฆฌ ๊ธฐ๋ฒ•, AhaKV ์†Œ๊ฐœ ๐Ÿ”ฅ


Gu Yifeng ๋“ฑ์ด ์ œ์•ˆํ•œ AhaKV ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ LLM ์ถ”๋ก  ๊ณผ์ •์—์„œ์˜ KV ์บ์‹œ ๊ด€๋ฆฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์˜ ํŽธํ–ฅ์„ฑ์„ ์ด๋ก ์ , ์‹คํ—˜์ ์œผ๋กœ ์ฆ๋ช…ํ•˜๊ณ , ์–ดํ…์…˜ ์ ์ˆ˜ ๋ฐ ๋ฐธ๋ฅ˜ ๋ฒกํ„ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ ์‘์ ์œผ๋กœ ์บ์‹œ๋ฅผ ๊ด€๋ฆฌํ•จ์œผ๋กœ์จ, ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

related iamge

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์œ„ํ•œ ํ˜์‹ ์ ์ธ KV ์บ์‹œ ๊ด€๋ฆฌ ๊ธฐ๋ฒ•, AhaKV ์†Œ๊ฐœ

์ตœ๊ทผ ๊ด„๋ชฉํ•  ๋งŒํ•œ ๋ฐœ์ „์„ ์ด๋ฃฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๊ทธ ๋ง‰๋Œ€ํ•œ ์„ฑ๋Šฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ถ”๋ก  ๊ณผ์ •์—์„œ ๋งŽ์€ ์ž์›์„ ์†Œ๋ชจํ•˜๋Š” ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Key-Value(KV) ์บ์‹œ๋Š” ๋ชจ๋ธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ขŒ์šฐํ•˜๋Š” ์š”์†Œ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ๋ถˆํ•„์š”ํ•œ ํ† ํฐ์„ KV ์บ์‹œ์—์„œ ์ œ๊ฑฐํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด์™”์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ˆ„์  ์–ดํ…์…˜ ์ ์ˆ˜์— ์˜์กดํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ๊ณ , ์ด๋Š” ์‹ฌ๊ฐํ•œ ํŽธํ–ฅ์„ฑ์„ ์•ผ๊ธฐํ–ˆ์Šต๋‹ˆ๋‹ค.

Gu Yifeng ๋“ฑ 6๋ช…์˜ ์—ฐ๊ตฌ์ž๋“ค์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models"์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด AhaKV๋ผ๋Š” ํ˜์‹ ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. AhaKV๋Š” ๋ˆ„์  ์–ดํ…์…˜ ์ ์ˆ˜์˜ ํŽธํ–ฅ์„ฑ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์–ดํ…์…˜ ์ ์ˆ˜์˜ ์ •๋ณด ์—”ํŠธ๋กœํ”ผ ๊ธฐ๋Œ€๊ฐ’์— ๋”ฐ๋ผ softmax ์Šค์ผ€์ผ์„ ์ ์‘์ ์œผ๋กœ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ ๊ฐ„๊ณผ๋˜์—ˆ๋˜ ๋ฐธ๋ฅ˜ ๋ฒกํ„ฐ(value vector) ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ ์‘ ์ ์ˆ˜๋ฅผ ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ์ „์—ญ ๋ฌธ๋งฅ ์ •๋ณด์— ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ์ด๋ก ์ ์œผ๋กœ AhaKV๊ฐ€ ํŽธํ–ฅ์„ฑ ๊ฐ์†Œ์— ํšจ๊ณผ์ ์ž„์„ ์ฆ๋ช…ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๊ณผ ๊ณ ์ •๋œ ์บ์‹œ ์šฉ๋Ÿ‰ ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, AhaKV๋Š” ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ ์ž‘์—…์—์„œ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ์ฒจ๋‹จ(SOTA) ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ๊ทธ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. AhaKV๋Š” ๋‹จ์ˆœํžˆ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋ชจ๋ธ์˜ ์ „์—ญ ๋ฌธ๋งฅ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผœ ๋”์šฑ ์ •ํ™•ํ•˜๊ณ  ํšจ์œจ์ ์ธ LLM ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

AhaKV์˜ ํ•ต์‹ฌ:

  • ์ ์‘์  ์–ดํ…์…˜ ์กฐ์ •: ์–ดํ…์…˜ ์ ์ˆ˜์˜ ์ •๋ณด ์—”ํŠธ๋กœํ”ผ ๊ธฐ๋Œ€๊ฐ’์„ ํ™œ์šฉํ•œ ์Šค์ผ€์ผ ์กฐ์ •์œผ๋กœ ํŽธํ–ฅ์„ฑ ์™„ํ™”
  • ๋ฐธ๋ฅ˜ ๋ฒกํ„ฐ ํ™œ์šฉ: ๊ฐ„๊ณผ๋˜์—ˆ๋˜ ๋ฐธ๋ฅ˜ ๋ฒกํ„ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ ์‘ ์ ์ˆ˜ ๊ฐœ์„  ๋ฐ ์ „์—ญ ๋ฌธ๋งฅ ์ •๋ณด ํ™œ์šฉ ์ฆ์ง„
  • ์ด๋ก ์  ๋ฐ ์‹คํ—˜์  ๊ฒ€์ฆ: ํŽธํ–ฅ์„ฑ ๊ฐ์†Œ ํšจ๊ณผ์™€ SOTA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์„ ํ†ตํ•ด ํšจ๊ณผ ์ž…์ฆ

์ด ์—ฐ๊ตฌ๋Š” LLM์˜ ํšจ์œจ์ ์ธ ๋ฐฐํฌ ๋ฐ ํ™œ์šฉ์— ์ค‘์š”ํ•œ ์ „๊ธฐ๋ฅผ ๋งˆ๋ จํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ AhaKV์™€ ๊ฐ™์€ ํ˜์‹ ์ ์ธ ๊ธฐ์ˆ ๋“ค์ด ๋”์šฑ ๋ฐœ์ „ํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด ๋”์šฑ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models

Published: ย (Updated: )

Author: Yifeng Gu, Zicong Jiang, Jianxiu Jin, Kailing Guo, Ziyang Zhang, Xiangmin Xu

http://arxiv.org/abs/2506.03762v1