๐Ÿšจ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์งˆ์˜ ๋ผ์šฐํŒ…์˜ ์ˆจ๊ฒจ์ง„ ์ง„์‹ค: ์†๋„์™€ ์ •ํ™•์„ฑ์˜ ๊ท ํ˜• ์žก๊ธฐ โš–๏ธ


๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์งˆ์˜ ๋ผ์šฐํŒ… ์‹œ์Šคํ…œ์˜ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, LLM์ด ํ•ญ์ƒ ์ตœ์„ ์˜ ์„ ํƒ์ด ์•„๋‹˜์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. WideMLP์™€ fastText์™€ ๊ฐ™์€ ๊ธฐ์กด ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด LLM๋ณด๋‹ค ์†๋„์™€ ์ •ํ™•์„ฑ ์ธก๋ฉด์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์—ฐ๊ตฌ์ง„์€ ์‹ค์šฉ์ ์ธ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์„ ์œ„ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ถŒ๊ณ ์•ˆ๊ณผ ์˜คํ”ˆ์†Œ์Šค ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

related iamge

์ตœ๊ทผ Richard ล lรฉher ๋“ฑ์˜ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "Guarded Query Routing for Large Language Models"์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์ด์šฉํ•œ ์งˆ์˜ ๋ผ์šฐํŒ… ์‹œ์Šคํ…œ์˜ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹จ์ˆœํžˆ LLM์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋งŒ์ด ์ตœ์„ ์˜ ํ•ด๊ฒฐ์ฑ…์ด ์•„๋‹˜์„ ๋ณด์—ฌ์ฃผ๋Š” ๋†€๋ผ์šด ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์‹ค์šฉ์ ์ธ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ›ก๏ธ ๋ณดํ˜ธ๋œ ์งˆ์˜ ๋ผ์šฐํŒ…์˜ ํ•„์š”์„ฑ

์—ฐ๊ตฌ์ง„์€ ์‚ฌ์šฉ์ž ์งˆ์˜๋ฅผ ๋‹ค์–‘ํ•œ LLM ์—”๋“œํฌ์ธํŠธ๋กœ ๋ผ์šฐํŒ…ํ•˜๋Š” ์ž‘์—…์„ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ๊ฐ„์ฃผํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ž˜๋ชป๋œ ์งˆ์˜(out-of-distribution queries) โ€“ ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ด€๋ จ ์—†๋Š” ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์งˆ๋ฌธ, ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ๋œ ์งˆ์˜, ํ˜น์€ ์•ˆ์ „ํ•˜์ง€ ์•Š์€ ํ…์ŠคํŠธ โ€“ ๋ฅผ ์ ์ ˆํžˆ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ Guarded Query Routing Benchmark (GQR-Bench) ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ ๋ฒ•๋ฅ , ๊ธˆ์œต, ์˜๋ฃŒ ๋“ฑ ์„ธ ๊ฐ€์ง€ ๋„๋ฉ”์ธ๊ณผ ์ด๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•œ 7๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ์‹œ์Šคํ…œ์˜ ๊ฐ•์ธ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜์ ์ธ ๋‹จ๊ณ„์˜€์Šต๋‹ˆ๋‹ค.

โš”๏ธ LLM vs. ๊ธฐ์กด ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ: ์„ฑ๋Šฅ ๋น„๊ต

GQR-Bench๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ๊ตฌ์ง„์€ GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B์™€ ๊ฐ™์€ LLM ๊ธฐ๋ฐ˜ ๋ผ์šฐํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ LlamaGuard, NVIDIA NeMo Guardrails ์™€ ๊ฐ™์€ ๊ธฐ์กด์˜ LLM ๊ธฐ๋ฐ˜ ๋ณดํ˜ธ ์žฅ์น˜, WideMLP, fastText ์™€ ๊ฐ™์€ ์—ฐ์†์ ์ธ bag-of-words ๋ถ„๋ฅ˜๊ธฐ, ๊ทธ๋ฆฌ๊ณ  SVM, XGBoost ์™€ ๊ฐ™์€ ์ „ํ†ต์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋†€๋ผ์› ์Šต๋‹ˆ๋‹ค. WideMLP๋Š” ๋„๋ฉ”์ธ ๊ฐ์ง€ ๊ธฐ๋Šฅ์ด ์ถ”๊ฐ€๋˜์–ด ์ •ํ™•๋„ 88%์™€ 4ms ๋ฏธ๋งŒ์˜ ์†๋„๋ผ๋Š” ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. fastText๋Š” 1ms ๋ฏธ๋งŒ์˜ ์†๋„๋กœ 80%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์†๋„ ์ธก๋ฉด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— LLM์€ 91%์˜ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, Llama-3.1:8B๋Š” 62ms, ์›๊ฒฉ GPT-4o-mini ํ˜ธ์ถœ์€ 669ms ๋กœ ์ƒ๋Œ€์ ์œผ๋กœ ๋А๋ฆฐ ์†๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿค” LLM์˜ ์ž๋™ ์˜์กด์„ฑ์— ๋Œ€ํ•œ ์žฌ๊ณ : ์‹ค์šฉ์ ์ธ ๊ถŒ๊ณ 

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” (๋ณดํ˜ธ๋œ) ์งˆ์˜ ๋ผ์šฐํŒ…์— ๋Œ€ํ•œ LLM์˜ ์ž๋™ ์˜์กด์„ฑ์— ๋Œ€ํ•œ ์žฌ๊ณ ๋ฅผ ์ด‰๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ถŒ๊ณ ์•ˆ์„ ์ œ๊ณตํ•˜๋ฉฐ, GQR-Bench๋Š” Python ํŒจํ‚ค์ง€(gqr)๋กœ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค๋„ ๋ณธ ์—ฐ๊ตฌ์˜ ๊ฒฐ๊ณผ๋ฅผ ์žฌํ˜„ํ•˜๊ณ  ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ๋ณธ ์—ฐ๊ตฌ๋Š” LLM์ด ๋ชจ๋“  ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋งŒ๋Šฅ ํ•ด๊ฒฐ์ฑ…์ด ์•„๋‹ˆ๋ผ๋Š” ์ ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์†๋„์™€ ์ •ํ™•์„ฑ์˜ ๊ท ํ˜•์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฌธ์ œ์— ์ ํ•ฉํ•œ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์‹ค์šฉ์ ์ธ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ํ•„์ˆ˜์ ์ž„์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. GQR-Bench์˜ ๊ณต๊ฐœ๋Š” ์ด๋Ÿฌํ•œ ๊ท ํ˜•์„ ์ฐพ๋Š” ๋ฐ ์ค‘์š”ํ•œ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์•ž์œผ๋กœ ๋”์šฑ ํšจ์œจ์ ์ด๊ณ  ์•ˆ์ „ํ•œ ์งˆ์˜ ๋ผ์šฐํŒ… ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ๊ธฐ์—ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Guarded Query Routing for Large Language Models

Published: ย (Updated: )

Author: Richard ล lรฉher, William Brach, Tibor Sloboda, Kristiรกn Koลกลฅรกl, Lukas Galke

http://arxiv.org/abs/2505.14524v2