๐Ÿšจ ์ถฉ๊ฒฉ! LLMs์˜ ํ‘œ ๋ฐ์ดํ„ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ, ๊ณผ๋Œ€ํ‰๊ฐ€๋œ ์ง„์‹ค?


๋ณธ ์—ฐ๊ตฌ๋Š” LLM์˜ ํ‘œ ํ˜•์‹ ๋ฐ์ดํ„ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๊ณ , ์‹ค์ œ ๋ฐ์ดํ„ฐ ํŠน์ง•์„ ๋ฐ˜์˜ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ €ํ•˜๋ฅผ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLM์˜ ์‹ค์šฉ์  ํ™œ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๊ณ ๋ คํ•œ ๊ฐ•๊ฑดํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ๋ฐœ์ด ํ•„์ˆ˜์ ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

related iamge

๋†€๋ผ์šด ์—ฐ๊ตฌ ๊ฒฐ๊ณผ: LLMs์˜ ํ‘œ ๋ฐ์ดํ„ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ, ๊ณผ์—ฐ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ• ๊นŒ์š”?

์ตœ๊ทผ Cornelius Wolff์™€ Madelon Hulsebos๊ฐ€ ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "How well do LLMs reason over tabular data, really?"๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์— ํฐ ํŒŒ์žฅ์„ ์ผ์œผํ‚ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ํ‘œ ํ˜•์‹ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ์˜์™ธ๋กœ ๋ถ€์กฑํ•˜๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ๋ฌธ์ œ์ : ๊ณผ์žฅ๋œ ์„ฑ๋Šฅ?

์—ฐ๊ตฌ์ง„์€ ๊ธฐ์กด์˜ LLM ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉ์‹์ด LLM์˜ ์‹ค์ œ ์„ฑ๋Šฅ์„ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ ์„ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์ค‘ ์„ ํƒํ˜• ์งˆ๋ฌธ๊ณผ ๊ฐ™์€ ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์€ LLM์˜ ์‹ค์ œ ์‘์šฉ ํ™˜๊ฒฝ๊ณผ๋Š” ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€๋ฉฐ, SacreBleu๋‚˜ BERT-score์™€ ๊ฐ™์€ ์ž์œ  ํ˜•์‹ ํ…์ŠคํŠธ ํ‰๊ฐ€ ์ง€ํ‘œ ๋˜ํ•œ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ 'LLM-as-a-judge' ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด LLM์˜ ํ‘œ ๋ฐ์ดํ„ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์‹ฌ๊ฐํ•œ ๋ถ€์กฑ ํ˜„์ƒ์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค.

ํ˜„์‹ค์˜ ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  LLM์˜ ํ•œ๊ณ„:

์—ฐ๊ตฌ๋Š” ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€, ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ๋ฐ˜์˜ํ•œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ์—๋Š” ๊ฒฐ์ธก์น˜, ์ค‘๋ณต ํ•ญ๋ชฉ, ๊ตฌ์กฐ์  ๋ณ€ํ™”์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ถˆ๊ทœ์น™์„ฑ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์˜ ๋ณ€ํ™”์— ๋งค์šฐ ์ทจ์•ฝํ•œ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ ธ๋„ LLM์˜ ์„ฑ๋Šฅ์€ ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์ด ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋ฏธ๋ž˜๋ฅผ ์œ„ํ•œ ์ œ์–ธ: ๊ฐ•๊ฑดํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ํ•„์š”์„ฑ

์ด ์—ฐ๊ตฌ๋Š” LLM์˜ ์‹ค์šฉ์ ์ธ ํ™œ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๊ณ ๋ คํ•œ ๊ฐ•๊ฑดํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž„์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถฐ์•ผ ์‹ค์ œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ LLM ์—ฐ๊ตฌ๋Š” ๋‹จ์ˆœํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„˜์–ด, ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ํ™•๋ณด์— ๋”์šฑ ์ง‘์ค‘ํ•ด์•ผ ํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.


์ž ๊น! ์ด ์—ฐ๊ตฌ๋Š” LLM์˜ ๋ชจ๋“  ๋Šฅ๋ ฅ์„ ๋ถ€์ •ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค. ๋‹ค๋งŒ, LLM์˜ ํ˜„์‹ค์ ์ธ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ฐํžˆ๊ณ , ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. LLM์˜ ๋ฐœ์ „์€ ๊ณ„์†๋  ๊ฒƒ์ด๋ฉฐ, ์ด๋Ÿฌํ•œ ํ•œ๊ณ„์ ์„ ๊ทน๋ณตํ•˜๋Š” ๊ธฐ์ˆ  ๋˜ํ•œ ๋ฐœ์ „ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] How well do LLMs reason over tabular data, really?

Published: ย (Updated: )

Author: Cornelius Wolff, Madelon Hulsebos

http://arxiv.org/abs/2505.07453v1