๐จ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ง์ ๋ผ์ฐํ ์ ์จ๊ฒจ์ง ์ง์ค: ์๋์ ์ ํ์ฑ์ ๊ท ํ ์ก๊ธฐ โ๏ธ
๋ณธ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์ง์ ๋ผ์ฐํ ์์คํ ์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ํ๊ฐํ ๊ฒฐ๊ณผ, LLM์ด ํญ์ ์ต์ ์ ์ ํ์ด ์๋์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. WideMLP์ fastText์ ๊ฐ์ ๊ธฐ์กด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด LLM๋ณด๋ค ์๋์ ์ ํ์ฑ ์ธก๋ฉด์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ฐ๊ตฌ์ง์ ์ค์ฉ์ ์ธ ์์คํ ๊ตฌ์ถ์ ์ํ ๊ตฌ์ฒด์ ์ธ ๊ถ๊ณ ์๊ณผ ์คํ์์ค ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ต๋๋ค.

์ต๊ทผ Richard ล lรฉher ๋ฑ์ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ "Guarded Query Routing for Large Language Models"์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ด์ฉํ ์ง์ ๋ผ์ฐํ ์์คํ ์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ๋ํ ์ค์ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๋จ์ํ LLM์ ์ฌ์ฉํ๋ ๊ฒ๋ง์ด ์ต์ ์ ํด๊ฒฐ์ฑ ์ด ์๋์ ๋ณด์ฌ์ฃผ๋ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ฉฐ, ์ค์ฉ์ ์ธ ์์คํ ๊ตฌ์ถ์ ์ํ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
๐ก๏ธ ๋ณดํธ๋ ์ง์ ๋ผ์ฐํ ์ ํ์์ฑ
์ฐ๊ตฌ์ง์ ์ฌ์ฉ์ ์ง์๋ฅผ ๋ค์ํ LLM ์๋ํฌ์ธํธ๋ก ๋ผ์ฐํ ํ๋ ์์ ์ ํ ์คํธ ๋ถ๋ฅ ๋ฌธ์ ๋ก ๊ฐ์ฃผํ์ต๋๋ค. ํ์ง๋ง, ์๋ชป๋ ์ง์(out-of-distribution queries) โ ์๋ฅผ ๋ค์ด, ๊ด๋ จ ์๋ ๋๋ฉ์ธ์ ๋ํ ์ง๋ฌธ, ๋ค๋ฅธ ์ธ์ด๋ก ๋ ์ง์, ํน์ ์์ ํ์ง ์์ ํ ์คํธ โ ๋ฅผ ์ ์ ํ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ Guarded Query Routing Benchmark (GQR-Bench) ๋ฅผ ๊ฐ๋ฐํ์ฌ ๋ฒ๋ฅ , ๊ธ์ต, ์๋ฃ ๋ฑ ์ธ ๊ฐ์ง ๋๋ฉ์ธ๊ณผ ์ด๋ฅผ ํ ์คํธํ๊ธฐ ์ํ 7๊ฐ์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ํฌํจํ์ต๋๋ค. ์ด๋ ๋ค์ํ ์ํฉ์์ ์์คํ ์ ๊ฐ์ธ์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ํ์์ ์ธ ๋จ๊ณ์์ต๋๋ค.
โ๏ธ LLM vs. ๊ธฐ์กด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ: ์ฑ๋ฅ ๋น๊ต
GQR-Bench๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ๊ตฌ์ง์ GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B์ ๊ฐ์ LLM ๊ธฐ๋ฐ ๋ผ์ฐํ ๋ฉ์ปค๋์ฆ๊ณผ LlamaGuard, NVIDIA NeMo Guardrails ์ ๊ฐ์ ๊ธฐ์กด์ LLM ๊ธฐ๋ฐ ๋ณดํธ ์ฅ์น, WideMLP, fastText ์ ๊ฐ์ ์ฐ์์ ์ธ bag-of-words ๋ถ๋ฅ๊ธฐ, ๊ทธ๋ฆฌ๊ณ SVM, XGBoost ์ ๊ฐ์ ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋น๊ตํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ๋๋ผ์ ์ต๋๋ค. WideMLP๋ ๋๋ฉ์ธ ๊ฐ์ง ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋์ด ์ ํ๋ 88%์ 4ms ๋ฏธ๋ง์ ์๋๋ผ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. fastText๋ 1ms ๋ฏธ๋ง์ ์๋๋ก 80%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ ์๋ ์ธก๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ฐ๋ฉด์ LLM์ 91%์ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, Llama-3.1:8B๋ 62ms, ์๊ฒฉ GPT-4o-mini ํธ์ถ์ 669ms ๋ก ์๋์ ์ผ๋ก ๋๋ฆฐ ์๋๋ฅผ ๋ณด์์ต๋๋ค.
๐ค LLM์ ์๋ ์์กด์ฑ์ ๋ํ ์ฌ๊ณ : ์ค์ฉ์ ์ธ ๊ถ๊ณ
์ด๋ฌํ ๊ฒฐ๊ณผ๋ (๋ณดํธ๋) ์ง์ ๋ผ์ฐํ ์ ๋ํ LLM์ ์๋ ์์กด์ฑ์ ๋ํ ์ฌ๊ณ ๋ฅผ ์ด๊ตฌํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ค์ ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๊ถ๊ณ ์์ ์ ๊ณตํ๋ฉฐ, GQR-Bench๋ Python ํจํค์ง(gqr)๋ก ๊ณต๊ฐ๋ ์์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค๋ ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ฅผ ์ฌํํ๊ณ ๋ฐ์ ์ํฌ ์ ์๊ฒ ๋ฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ์ฐ๊ตฌ๋ LLM์ด ๋ชจ๋ ๋ฌธ์ ์ ๋ํ ๋ง๋ฅ ํด๊ฒฐ์ฑ ์ด ์๋๋ผ๋ ์ ์ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค. ์๋์ ์ ํ์ฑ์ ๊ท ํ์ ๊ณ ๋ คํ์ฌ ๋ฌธ์ ์ ์ ํฉํ ๋ชจ๋ธ์ ์ ํํ๋ ๊ฒ์ด ์ค์ฉ์ ์ธ ์์คํ ๊ตฌ์ถ์ ํ์์ ์์ ๊ฐ์กฐํฉ๋๋ค. GQR-Bench์ ๊ณต๊ฐ๋ ์ด๋ฌํ ๊ท ํ์ ์ฐพ๋ ๋ฐ ์ค์ํ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์ผ๋ก ๋์ฑ ํจ์จ์ ์ด๊ณ ์์ ํ ์ง์ ๋ผ์ฐํ ์์คํ ๊ฐ๋ฐ์ ๊ธฐ์ฌํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] Guarded Query Routing for Large Language Models
Published: ย (Updated: )
Author: Richard ล lรฉher, William Brach, Tibor Sloboda, Kristiรกn Koลกลฅรกl, Lukas Galke
http://arxiv.org/abs/2505.14524v2