๐Ÿ”ฅ Ascendra: LLM ์„œ๋น™์˜ ํ˜์‹ , ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์˜ ์™„๋ฒฝํ•œ ์กฐํ™” ๐Ÿ”ฅ


Ascendra๋Š” TTFT์™€ TBT SLO๋ฅผ ๋™์‹œ์— ์ถฉ์กฑํ•˜๋Š” ๋™์  ์š”์ฒญ ์šฐ์„ ์ˆœ์œ„ ์ง€์ • ์‹œ์Šคํ…œ์œผ๋กœ, GPU ๋ฆฌ์†Œ์Šค๋ฅผ ์ €/๊ณ ์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค๋กœ ๋ถ„ํ• ํ•˜์—ฌ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ท ํ˜•์„ ์ด๋ฃน๋‹ˆ๋‹ค. ๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ ์ตœ๋Œ€ 1.7๋ฐฐ ํ–ฅ์ƒ๋œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ธฐ๋กํ•˜๋ฉฐ, LLM ์„œ๋น™ ํšจ์œจ์„ฑ์— ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

related iamge

LLM ์‹œ๋Œ€์˜ ๋„์ „: ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„, ๋‘ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ์žก์•„๋ผ!

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „์€ ๋”์šฑ ํšจ์œจ์ ์ธ ์„œ๋น™ ์ „๋žต์˜ ํ•„์š”์„ฑ์„ ๋ถˆ๋Ÿฌ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํšจ์œจ์„ฑ์ด๋ž€, ํŠนํžˆ ์ฒซ ํ† ํฐ๊นŒ์ง€์˜ ์‹œ๊ฐ„(TTFT)๊ณผ ํ† ํฐ ๊ฐ„ ์‹œ๊ฐ„(TBT)๊ณผ ๊ฐ™์€ ์„œ๋น„์Šค ์ˆ˜์ค€ ๋ชฉํ‘œ(SLO)๋ฅผ ์ถฉ์กฑํ•˜๋Š” ์š”์ฒญ์˜ ๋น„์œจ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ์กด ์‹œ์Šคํ…œ๋“ค์€ ์ข…์ข… ํ•œ ๊ฐ€์ง€ ์ง€ํ‘œ์— ์ง‘์ค‘ํ•˜๋Š” ๋‚˜๋จธ์ง€ ๋‹ค๋ฅธ ์ง€ํ‘œ๋ฅผ ํฌ์ƒํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค.

Ascendra: ํ˜์‹ ์ ์ธ ๋‘ ๋‹จ๊ณ„ ์šฐ์„ ์ˆœ์œ„ ์‹œ์Šคํ…œ

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๊ฒƒ์ด ๋ฐ”๋กœ Ascendra์ž…๋‹ˆ๋‹ค. Azam Ikram, Xiang Li, Sameh Elnikety, Saurabh Bagchi ๋“ฑ์ด ๊ฐœ๋ฐœํ•œ Ascendra๋Š” TTFT์™€ TBT SLO๋ฅผ ๋™์‹œ์— ์ถฉ์กฑํ•˜๋„๋ก ์„ค๊ณ„๋œ LLM ์„œ๋น™ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. Ascendra์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์š”์ฒญ์˜ ๊ธด๊ธ‰์„ฑ์ด ๋งˆ๊ฐ ์‹œ๊ฐ„์— ๊ฐ€๊นŒ์›Œ์ง์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•œ๋‹ค๋Š” ์ ์— ์žˆ์Šต๋‹ˆ๋‹ค.

Ascendra๋Š” ์ด๋Ÿฌํ•œ ์ ์„ ํ™œ์šฉํ•˜์—ฌ GPU ๋ฆฌ์†Œ์Šค๋ฅผ ์ €์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค์™€ ๊ณ ์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค์˜ ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์œผ๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค. ์ €์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค๋Š” ์š”์ฒญ์„ ๋„์ฐฉ ์ˆœ์„œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ทน๋Œ€ํ™”ํ•˜์ง€๋งŒ, ์š”์ฒญ ์ง€์—ฐ์˜ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Ascendra๋Š” ์„ฑ๋Šฅ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ SLO๋ฅผ ์ถฉ์กฑํ•˜์ง€ ๋ชปํ•  ์œ„ํ—˜์ด ์žˆ๋Š” ์š”์ฒญ์„ ์˜ˆ์ธกํ•˜๊ณ , ์‚ฌ์ „์— ๊ณ ์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค๋กœ ์˜คํ”„๋กœ๋”ฉํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์šฐ์„ ์ˆœ์œ„ ์ธ์Šคํ„ด์Šค๋Š” ์ €์ง€์—ฐ ์‹คํ–‰์— ์ตœ์ ํ™”๋˜์–ด ๋งˆ๊ฐ ์‹œ๊ฐ„์ด ์ž„๋ฐ•ํ•œ ๊ธด๊ธ‰ํ•œ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ถ„ํ•  ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด Ascendra๋Š” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ท ํ˜• ์žˆ๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, Ascendra๋Š” vLLM๊ณผ Sarathi-Serve์— ๋น„ํ•ด ์‹œ์Šคํ…œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ 1.7๋ฐฐ๊นŒ์ง€ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋™์‹œ์— TTFT ๋ฐ TBT SLO๋ฅผ ๋ชจ๋‘ ์ถฉ์กฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

๋ฏธ๋ž˜๋ฅผ ํ–ฅํ•œ ๋ฐœ๊ฑธ์Œ: LLM ์„œ๋น™์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰

Ascendra๋Š” ๋‹จ์ˆœํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„˜์–ด, LLM ์„œ๋น™ ์‹œ์Šคํ…œ ์„ค๊ณ„์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์š”์ฒญ์˜ ๊ธด๊ธ‰์„ฑ์„ ๋™์ ์œผ๋กœ ๊ณ ๋ คํ•˜๋Š” Ascendra์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ–ฅํ›„ LLM ๊ธฐ๋ฐ˜ ์„œ๋น„์Šค์˜ ํ™•์žฅ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ผ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋”์šฑ ๋น ๋ฅด๊ณ , ์•ˆ์ •์ ์ด๋ฉฐ, ํšจ์œจ์ ์ธ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ๋กœ ์ด์–ด์ ธ ์šฐ๋ฆฌ์˜ ๋””์ง€ํ„ธ ์‚ถ์„ ํ’์š”๋กญ๊ฒŒ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. Ascendra์˜ ๋“ฑ์žฅ์€ LLM ๊ธฐ์ˆ  ๋ฐœ์ „์˜ ํฅ๋ฏธ๋กœ์šด ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

Published: ย (Updated: )

Author: Azam Ikram, Xiang Li, Sameh Elnikety, Saurabh Bagchi

http://arxiv.org/abs/2504.20828v2