๐จ ์ถฉ๊ฒฉ! LLMs์ ํ ๋ฐ์ดํฐ ์ถ๋ก ๋ฅ๋ ฅ, ๊ณผ๋ํ๊ฐ๋ ์ง์ค?
๋ณธ ์ฐ๊ตฌ๋ LLM์ ํ ํ์ ๋ฐ์ดํฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ํ ๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ , ์ค์ ๋ฐ์ดํฐ ํน์ง์ ๋ฐ์ํ ์คํ์ ํตํด LLM์ ์ถ๋ก ๋ฅ๋ ฅ ์ ํ๋ฅผ ๋ฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด LLM์ ์ค์ฉ์ ํ์ฉ์ ์ํด์๋ ์ค์ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๊ณ ๋ คํ ๊ฐ๊ฑดํ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ๋ฐ์ด ํ์์ ์์ ์์ฌํฉ๋๋ค.

๋๋ผ์ด ์ฐ๊ตฌ ๊ฒฐ๊ณผ: LLMs์ ํ ๋ฐ์ดํฐ ์ถ๋ก ๋ฅ๋ ฅ, ๊ณผ์ฐ ์ผ๋ง๋ ์ ํํ ๊น์?
์ต๊ทผ Cornelius Wolff์ Madelon Hulsebos๊ฐ ๋ฐํํ ๋ ผ๋ฌธ "How well do LLMs reason over tabular data, really?"๋ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ํฐ ํ์ฅ์ ์ผ์ผํค๊ณ ์์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ฐ์ด ์ฒ๋ฆฌ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ํ ํ์ ๋ฐ์ดํฐ์ ๋ํ ์ถ๋ก ๋ฅ๋ ฅ์ ์์ธ๋ก ๋ถ์กฑํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋์ต๋๋ค.
๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ ๋ฌธ์ ์ : ๊ณผ์ฅ๋ ์ฑ๋ฅ?
์ฐ๊ตฌ์ง์ ๊ธฐ์กด์ LLM ์ฑ๋ฅ ํ๊ฐ ๋ฐฉ์์ด LLM์ ์ค์ ์ฑ๋ฅ์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ์ ์ ์ง์ ํฉ๋๋ค. ๋ค์ค ์ ํํ ์ง๋ฌธ๊ณผ ๊ฐ์ ๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ LLM์ ์ค์ ์์ฉ ํ๊ฒฝ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋ฉฐ, SacreBleu๋ BERT-score์ ๊ฐ์ ์์ ํ์ ํ ์คํธ ํ๊ฐ ์งํ ๋ํ ํ๊ณ๊ฐ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ฐ๊ตฌ์ง์ 'LLM-as-a-judge' ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํตํด LLM์ ํ ๋ฐ์ดํฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฌ๊ฐํ ๋ถ์กฑ ํ์์ ๋ฐํ๋์ต๋๋ค.
ํ์ค์ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ LLM์ ํ๊ณ:
์ฐ๊ตฌ๋ ํ ๋จ๊ณ ๋ ๋์๊ฐ, ์ค์ ๋ฐ์ดํฐ์ ํน์ง์ ๋ฐ์ํ ์คํ์ ์งํํ์ต๋๋ค. ์ค์ ๋ฐ์ดํฐ์๋ ๊ฒฐ์ธก์น, ์ค๋ณต ํญ๋ชฉ, ๊ตฌ์กฐ์ ๋ณํ์ ๊ฐ์ ๋ค์ํ ๋ถ๊ท์น์ฑ์ด ์กด์ฌํฉ๋๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ด๋ฌํ ๋ฐ์ดํฐ์ ๋ณํ์ ๋งค์ฐ ์ทจ์ฝํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๊ฑฐ๋ ๋ฐ์ดํฐ ๊ตฌ์กฐ๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ LLM์ ์ฑ๋ฅ์ ๊ธ๊ฒฉํ ์ ํ๋์์ต๋๋ค. ์ด๋ LLM์ด ์ค์ ์ธ๊ณ์ ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์์์ ์์ฌํฉ๋๋ค.
๋ฏธ๋๋ฅผ ์ํ ์ ์ธ: ๊ฐ๊ฑดํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์์ฑ
์ด ์ฐ๊ตฌ๋ LLM์ ์ค์ฉ์ ์ธ ํ์ฉ์ ์ํด์๋ ์ค์ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๊ณ ๋ คํ ๊ฐ๊ฑดํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด ํ์์ ์์ ๊ฐ์กฐํฉ๋๋ค. ๋จ์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฅ๋ ฅ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ฉฐ, ๋ค์ํ ํํ์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถฐ์ผ ์ค์ ๋ฌธ์ ํด๊ฒฐ์ ๋์์ด ๋ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์์ผ๋ก LLM ์ฐ๊ตฌ๋ ๋จ์ํ ์ฑ๋ฅ ํฅ์์ ๋์ด, ์ค์ ๋ฐ์ดํฐ์ ๋ํ ๊ฐ๊ฑด์ฑ ํ๋ณด์ ๋์ฑ ์ง์คํด์ผ ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
์ ๊น! ์ด ์ฐ๊ตฌ๋ LLM์ ๋ชจ๋ ๋ฅ๋ ฅ์ ๋ถ์ ํ๋ ๊ฒ์ด ์๋๋๋ค. ๋ค๋ง, LLM์ ํ์ค์ ์ธ ํ๊ณ๋ฅผ ๋ช ํํ ๋ฐํ๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ ์ค์ํ ์ด์ ํ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. LLM์ ๋ฐ์ ์ ๊ณ์๋ ๊ฒ์ด๋ฉฐ, ์ด๋ฌํ ํ๊ณ์ ์ ๊ทน๋ณตํ๋ ๊ธฐ์ ๋ํ ๋ฐ์ ํ ๊ฒ์ ๋๋ค.
Reference
[arxiv] How well do LLMs reason over tabular data, really?
Published: ย (Updated: )
Author: Cornelius Wolff, Madelon Hulsebos
http://arxiv.org/abs/2505.07453v1