๐Ÿšจ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์งˆ์˜ ๋ผ์šฐํŒ…์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€: GQR-Bench ๋“ฑ์žฅ ๐Ÿšจ


๋ณธ ๊ธฐ์‚ฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์งˆ์˜ ๋ผ์šฐํŒ…์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. GQR-Bench๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™œ์šฉํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, WideMLP๊ฐ€ LLM๋ณด๋‹ค ์†๋„์™€ ์ •ํ™•๋„ ๋ฉด์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, fastText๋Š” ์†๋„ ๋ฉด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” LLM์— ๋Œ€ํ•œ ๋ฌด์ž‘์ • ์˜์กด๋ณด๋‹ค๋Š” ๋ฌธ์ œ์˜ ํŠน์„ฑ์— ๋งž๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ ํƒ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

related iamge

๐Ÿ’จ ์†๋„์™€ ์ •ํ™•์„ฑ, ๋‘˜ ๋‹ค ์žก์„ ์ˆ˜ ์žˆ์„๊นŒ? LLM ์งˆ์˜ ๋ผ์šฐํŒ…์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰

์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ฐœ์ „์€ ๋ˆˆ๋ถ€์‹ญ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ชจ๋“  ๋ฌธ์ œ์— LLM์ด ์ตœ์„ ์˜ ํ•ด๊ฒฐ์ฑ…์€ ์•„๋‹™๋‹ˆ๋‹ค. ํŠนํžˆ ์งˆ์˜ ๋ผ์šฐํŒ…๊ณผ ๊ฐ™์€ ๋ถ„์•ผ์—์„œ๋Š” ์†๋„์™€ ์ •ํ™•์„ฑ ์‚ฌ์ด์—์„œ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Richard ล lรฉher๋ฅผ ๋น„๋กฏํ•œ ์—ฐ๊ตฌํŒ€์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ Guarded Query Routing Benchmark (GQR-Bench) ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

GQR-Bench๋Š” ๋ฒ•๋ฅ , ๊ธˆ์œต, ์˜๋ฃŒ ๋“ฑ ์„ธ ๊ฐ€์ง€ ๋ถ„์•ผ๋ฅผ ๋‹ค๋ฃจ๋Š” 7๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ LLM ๊ธฐ๋ฐ˜ ๋ผ์šฐํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์„ฑ๋Šฅ์„ ๋น„๊ต ๋ถ„์„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ€ ๊ธฐ์กด์˜ ์ƒ์‹์„ ๋’ค์ง‘๋Š”๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๐Ÿ† ์Šน์ž๋Š” ๋ˆ„๊ตฌ? WideMLP์˜ ์•ฝ์ง„!

์—ฐ๊ตฌํŒ€์€ GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B์™€ ๊ฐ™์€ LLM ๊ธฐ๋ฐ˜ ๋ผ์šฐํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ LlamaGuard, NVIDIA NeMo Guardrails์™€ ๊ฐ™์€ ๋ณดํ˜ธ ์žฅ์น˜, WideMLP, fastText์™€ ๊ฐ™์€ ๊ธฐ์กด ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ(SVM, XGBoost ํฌํ•จ)์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋†€๋ž๊ฒŒ๋„ WideMLP๊ฐ€ ์ •ํ™•๋„(88%)์™€ ์†๋„(<4ms) ๋ฉด์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. LLM์€ ์ •ํ™•๋„(91%)๊ฐ€ ๋†’์•˜์ง€๋งŒ ์†๋„๊ฐ€ ํ˜„์ €ํžˆ ๋А๋ ธ์Šต๋‹ˆ๋‹ค(๋กœ์ปฌ Llama-3.1-8B๋Š” 62ms, ์›๊ฒฉ GPT-4o-mini๋Š” 669ms). ์ด๋Š” LLM์— ๋Œ€ํ•œ ๋ฌด์ž‘์ • ์˜์กด์„ ๊ฒฝ๊ณ„ํ•ด์•ผ ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

โšก๏ธ ์†๋„์˜ ์ œ์™•, fastText

fastText๋Š” ์ •ํ™•๋„(80%)๋Š” WideMLP๋ณด๋‹ค ๋‹ค์†Œ ๋‚ฎ์•˜์ง€๋งŒ, ๋†€๋ผ์šด ์†๋„(<1ms)๋ฅผ ์ž๋ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ์‘๋‹ต์ด ์ค‘์š”ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—๋Š” fastText๊ฐ€ ๋” ์ ํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก GQR-Bench: ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์˜ ํƒ„์ƒ

GQR-Bench๋Š” Python ํŒจํ‚ค์ง€(gqr)๋กœ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ด๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐœ์ „์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์งˆ์˜ ๋ผ์šฐํŒ… ๊ธฐ๋ฒ•์˜ ์„ฑ๋Šฅ์„ ๊ฐ๊ด€์ ์œผ๋กœ ๋น„๊ตํ•˜๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์ด๋ฒˆ ์—ฐ๊ตฌ๋Š” LLM์ด ๋ชจ๋“  ์ƒํ™ฉ์—์„œ ์ตœ๊ณ ์˜ ์„ ํƒ์ด ์•„๋‹˜์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋ฌธ์ œ์˜ ํŠน์„ฑ๊ณผ ์š”๊ตฌ์‚ฌํ•ญ์— ๋งž๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋ฉฐ, GQR-Bench๋Š” ์ด๋Ÿฌํ•œ ์„ ํƒ์„ ์œ„ํ•œ ํ›Œ๋ฅญํ•œ ๋„๊ตฌ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์ด ๋ถ„์•ผ์—์„œ ๋”์šฑ ํ˜์‹ ์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค!


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Guarded Query Routing for Large Language Models

Published: ย (Updated: )

Author: Richard ล lรฉher, William Brach, Tibor Sloboda, Kristiรกn Koลกลฅรกl, Lukas Galke

http://arxiv.org/abs/2505.14524v1