๐จ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ง์ ๋ผ์ฐํ ์ ์๋ก์ด ๊ธฐ์ค: GQR-Bench ๋ฑ์ฅ ๐จ
๋ณธ ๊ธฐ์ฌ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์ง์ ๋ผ์ฐํ ์ ํจ์จ์ฑ๊ณผ ์ ํ์ฑ์ ๋ํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํฉ๋๋ค. GQR-Bench๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ํ์ฉํ ์คํ ๊ฒฐ๊ณผ, WideMLP๊ฐ LLM๋ณด๋ค ์๋์ ์ ํ๋ ๋ฉด์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, fastText๋ ์๋ ๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์์ ๋ฐํ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ LLM์ ๋ํ ๋ฌด์์ ์์กด๋ณด๋ค๋ ๋ฌธ์ ์ ํน์ฑ์ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ ์ ํ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.

๐จ ์๋์ ์ ํ์ฑ, ๋ ๋ค ์ก์ ์ ์์๊น? LLM ์ง์ ๋ผ์ฐํ ์ ์๋ก์ด ์งํ
์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฐ์ ์ ๋๋ถ์ญ๋๋ค. ํ์ง๋ง ๋ชจ๋ ๋ฌธ์ ์ LLM์ด ์ต์ ์ ํด๊ฒฐ์ฑ ์ ์๋๋๋ค. ํนํ ์ง์ ๋ผ์ฐํ ๊ณผ ๊ฐ์ ๋ถ์ผ์์๋ ์๋์ ์ ํ์ฑ ์ฌ์ด์์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. Richard ล lรฉher๋ฅผ ๋น๋กฏํ ์ฐ๊ตฌํ์ ์ด๋ฌํ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก Guarded Query Routing Benchmark (GQR-Bench) ๋ฅผ ์ ์ํ์ต๋๋ค.
GQR-Bench๋ ๋ฒ๋ฅ , ๊ธ์ต, ์๋ฃ ๋ฑ ์ธ ๊ฐ์ง ๋ถ์ผ๋ฅผ ๋ค๋ฃจ๋ 7๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ LLM ๊ธฐ๋ฐ ๋ผ์ฐํ ๋ฉ์ปค๋์ฆ์ ์ฑ๋ฅ์ ๋น๊ต ๋ถ์ํ๋ ๋ฐ ์ฌ์ฉ๋์์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ์กด์ ์์์ ๋ค์ง๋๋ค๋ ๊ฒ์ ๋๋ค.
๐ ์น์๋ ๋๊ตฌ? WideMLP์ ์ฝ์ง!
์ฐ๊ตฌํ์ GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B์ ๊ฐ์ LLM ๊ธฐ๋ฐ ๋ผ์ฐํ ๋ฉ์ปค๋์ฆ๊ณผ LlamaGuard, NVIDIA NeMo Guardrails์ ๊ฐ์ ๋ณดํธ ์ฅ์น, WideMLP, fastText์ ๊ฐ์ ๊ธฐ์กด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ(SVM, XGBoost ํฌํจ)์ ๋น๊ตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋๋๊ฒ๋ WideMLP๊ฐ ์ ํ๋(88%)์ ์๋(<4ms) ๋ฉด์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. LLM์ ์ ํ๋(91%)๊ฐ ๋์์ง๋ง ์๋๊ฐ ํ์ ํ ๋๋ ธ์ต๋๋ค(๋ก์ปฌ Llama-3.1-8B๋ 62ms, ์๊ฒฉ GPT-4o-mini๋ 669ms). ์ด๋ LLM์ ๋ํ ๋ฌด์์ ์์กด์ ๊ฒฝ๊ณํด์ผ ํจ์ ์์ฌํฉ๋๋ค.
โก๏ธ ์๋์ ์ ์, fastText
fastText๋ ์ ํ๋(80%)๋ WideMLP๋ณด๋ค ๋ค์ ๋ฎ์์ง๋ง, ๋๋ผ์ด ์๋(<1ms)๋ฅผ ์๋ํ์ต๋๋ค. ์ค์๊ฐ ์๋ต์ด ์ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์๋ fastText๊ฐ ๋ ์ ํฉํ ์ ์์ต๋๋ค.
๐ก GQR-Bench: ์๋ก์ด ๋ฒค์น๋งํฌ์ ํ์
GQR-Bench๋ Python ํจํค์ง(gqr
)๋ก ๊ณต๊ฐ๋ ์์ ์ด๋ฉฐ, ํฅํ ์ฐ๊ตฌ ๋ฐ์ ์ ํฌ๊ฒ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ค์ํ ์ง์ ๋ผ์ฐํ
๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ๊ฐ๊ด์ ์ผ๋ก ๋น๊ตํ๊ณ ํ๊ฐํ ์ ์๊ฒ ๋์๊ธฐ ๋๋ฌธ์
๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์ด๋ฒ ์ฐ๊ตฌ๋ LLM์ด ๋ชจ๋ ์ํฉ์์ ์ต๊ณ ์ ์ ํ์ด ์๋์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ์ฌ๋ก์ ๋๋ค. ๋ฌธ์ ์ ํน์ฑ๊ณผ ์๊ตฌ์ฌํญ์ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, GQR-Bench๋ ์ด๋ฌํ ์ ํ์ ์ํ ํ๋ฅญํ ๋๊ตฌ๊ฐ ๋ ๊ฒ์ ๋๋ค. ์์ผ๋ก ์ด ๋ถ์ผ์์ ๋์ฑ ํ์ ์ ์ธ ์ฐ๊ตฌ๊ฐ ๊ธฐ๋๋ฉ๋๋ค!
Reference
[arxiv] Guarded Query Routing for Large Language Models
Published: ย (Updated: )
Author: Richard ล lรฉher, William Brach, Tibor Sloboda, Kristiรกn Koลกลฅรกl, Lukas Galke
http://arxiv.org/abs/2505.14524v1