๐ฅ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ํ ํ์ ์ ์ธ KV ์บ์ ๊ด๋ฆฌ ๊ธฐ๋ฒ, AhaKV ์๊ฐ ๐ฅ
Gu Yifeng ๋ฑ์ด ์ ์ํ AhaKV ์๊ณ ๋ฆฌ์ฆ์ LLM ์ถ๋ก ๊ณผ์ ์์์ KV ์บ์ ๊ด๋ฆฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ํธํฅ์ฑ์ ์ด๋ก ์ , ์คํ์ ์ผ๋ก ์ฆ๋ช ํ๊ณ , ์ดํ ์ ์ ์ ๋ฐ ๋ฐธ๋ฅ ๋ฒกํฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์์ ์ผ๋ก ์บ์๋ฅผ ๊ด๋ฆฌํจ์ผ๋ก์จ, ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.

๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ํ ํ์ ์ ์ธ KV ์บ์ ๊ด๋ฆฌ ๊ธฐ๋ฒ, AhaKV ์๊ฐ
์ต๊ทผ ๊ด๋ชฉํ ๋งํ ๋ฐ์ ์ ์ด๋ฃฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ทธ ๋ง๋ํ ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ , ์ถ๋ก ๊ณผ์ ์์ ๋ง์ ์์์ ์๋ชจํ๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ํนํ, Key-Value(KV) ์บ์๋ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ข์ฐํ๋ ์์ ์ค ํ๋์ ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ถํ์ํ ํ ํฐ์ KV ์บ์์์ ์ ๊ฑฐํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํด์์ง๋ง, ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋์ ์ดํ ์ ์ ์์ ์์กดํ๋ ๊ฒฝํฅ์ด ์์๊ณ , ์ด๋ ์ฌ๊ฐํ ํธํฅ์ฑ์ ์ผ๊ธฐํ์ต๋๋ค.
Gu Yifeng ๋ฑ 6๋ช ์ ์ฐ๊ตฌ์๋ค์ด ๋ฐํํ ๋ ผ๋ฌธ "AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models"์ ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด AhaKV๋ผ๋ ํ์ ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค. AhaKV๋ ๋์ ์ดํ ์ ์ ์์ ํธํฅ์ฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ดํ ์ ์ ์์ ์ ๋ณด ์ํธ๋กํผ ๊ธฐ๋๊ฐ์ ๋ฐ๋ผ softmax ์ค์ผ์ผ์ ์ ์์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค. ๋ฟ๋ง ์๋๋ผ, ๊ธฐ์กด ์ฐ๊ตฌ์์ ๊ฐ๊ณผ๋์๋ ๋ฐธ๋ฅ ๋ฒกํฐ(value vector) ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ ์ ์๋ฅผ ๋์ฑ ์ ๊ตํ๊ฒ ๊ฐ์ ํจ์ผ๋ก์จ, ๋ชจ๋ธ์ด ์ ์ญ ๋ฌธ๋งฅ ์ ๋ณด์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ ๊ทผํ ์ ์๋๋ก ํฉ๋๋ค.
์ฐ๊ตฌ์ง์ ์ด๋ก ์ ์ผ๋ก AhaKV๊ฐ ํธํฅ์ฑ ๊ฐ์์ ํจ๊ณผ์ ์์ ์ฆ๋ช ํ๊ณ , ๋ค์ํ ๋ชจ๋ธ๊ณผ ๊ณ ์ ๋ ์บ์ ์ฉ๋ ํ๊ฒฝ์์ ์คํ์ ์ํํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, AhaKV๋ ์ฌ๋ฌ ๋ฒค์น๋งํฌ ์์ ์์ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ฅ๊ฐํ๋ ์ต์ฒจ๋จ(SOTA) ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ๊ทธ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. AhaKV๋ ๋จ์ํ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๊ฒ์ ๋์ด, ๋ชจ๋ธ์ ์ ์ญ ๋ฌธ๋งฅ ์ดํด ๋ฅ๋ ฅ์ ํฅ์์์ผ ๋์ฑ ์ ํํ๊ณ ํจ์จ์ ์ธ LLM ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
AhaKV์ ํต์ฌ:
- ์ ์์ ์ดํ ์ ์กฐ์ : ์ดํ ์ ์ ์์ ์ ๋ณด ์ํธ๋กํผ ๊ธฐ๋๊ฐ์ ํ์ฉํ ์ค์ผ์ผ ์กฐ์ ์ผ๋ก ํธํฅ์ฑ ์ํ
- ๋ฐธ๋ฅ ๋ฒกํฐ ํ์ฉ: ๊ฐ๊ณผ๋์๋ ๋ฐธ๋ฅ ๋ฒกํฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ ์ ์ ๊ฐ์ ๋ฐ ์ ์ญ ๋ฌธ๋งฅ ์ ๋ณด ํ์ฉ ์ฆ์ง
- ์ด๋ก ์ ๋ฐ ์คํ์ ๊ฒ์ฆ: ํธํฅ์ฑ ๊ฐ์ ํจ๊ณผ์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ์ ํตํด ํจ๊ณผ ์ ์ฆ
์ด ์ฐ๊ตฌ๋ LLM์ ํจ์จ์ ์ธ ๋ฐฐํฌ ๋ฐ ํ์ฉ์ ์ค์ํ ์ ๊ธฐ๋ฅผ ๋ง๋ จํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์์ผ๋ก AhaKV์ ๊ฐ์ ํ์ ์ ์ธ ๊ธฐ์ ๋ค์ด ๋์ฑ ๋ฐ์ ํ์ฌ, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ๋์ฑ ๊ด๋ฒ์ํ๊ฒ ํ์ฉ๋ ์ ์๋ ํ ๋๋ฅผ ๋ง๋ จํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models
Published: ย (Updated: )
Author: Yifeng Gu, Zicong Jiang, Jianxiu Jin, Kailing Guo, Ziyang Zhang, Xiangmin Xu
http://arxiv.org/abs/2506.03762v1