๐Ÿ”ฅ AI๊ฐ€ ๋…ผ๋ฌธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ฝ”๋“œ๋กœ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ์„๊นŒ? SciReplicate-Bench ๋ฒค์น˜๋งˆํฌ ๋“ฑ์žฅ!


๋ณธ ๊ธฐ์‚ฌ๋Š” ์ตœ๊ทผ ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ "SciReplicate-Bench"๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ, LLM์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์žฌํ˜„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์™€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ Sci-Reproducer์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ LLM๋„ 39%์˜ ์‹คํ–‰ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋ฉฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๋ช…์˜ ๋ถ€์กฑ๊ณผ ๋ถˆ์ผ์น˜๊ฐ€ ์ฃผ์š” ์–ด๋ ค์›€์ž„์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. SciReplicate-Bench์™€ ์ฝ”๋“œ๋Š” ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์–ด LLM ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

related iamge

AI๊ฐ€ ๋…ผ๋ฌธ ์† ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•˜๋‹ค?! SciReplicate-Bench์˜ ๋†€๋ผ์šด ๋„์ „

์ตœ๊ทผ, Xiang Yanzheng ๋“ฑ ์—ฐ๊ตฌ์ง„์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers"๋Š” ์ธ๊ณต์ง€๋Šฅ(AI) ๋ถ„์•ผ, ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋†€๋ผ์šด ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ๋™์‹œ์— ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” LLM์ด ์ตœ์‹  NLP ๋…ผ๋ฌธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๋ช…์„ ๋ฐ”ํƒ•์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์—ญ๋Ÿ‰: ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ดํ•ด์™€ ์ฝ”๋”ฉ ์ „๋ฌธ์„ฑ

LLM์ด ์ด ๊ณผ์ œ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์—ญ๋Ÿ‰์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ดํ•ด๋ ฅ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ๊ณผ ํ•™์ˆ  ๋ฌธํ—Œ์—์„œ ์ •๋ณด๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ ๊ตฌํ˜„ ๋…ผ๋ฆฌ๋ฅผ ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ๋Š” ์ฝ”๋”ฉ ์ „๋ฌธ์„ฑ์ž…๋‹ˆ๋‹ค. ํ•„์š”ํ•œ API๋ฅผ ์‹๋ณ„ํ•˜๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ๊ตฌํ˜„ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

SciReplicate-Bench: 100๊ฐœ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์—„๊ฒฉํ•œ ํ‰๊ฐ€

์ด๋Ÿฌํ•œ ์—ญ๋Ÿ‰์„ ์—„๊ฒฉํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ SciReplicate-Bench๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. SciReplicate-Bench๋Š” 2024๋…„์— ๋ฐœํ‘œ๋œ NLP ๋…ผ๋ฌธ 36ํŽธ์—์„œ ์ถ”์ถœํ•œ 100๊ฐœ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํฌํ•จํ•˜๋ฉฐ, ์ƒ์„ธํ•œ ์ฃผ์„๊ณผ ์ข…ํ•ฉ์ ์ธ ํ…Œ์ŠคํŠธ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Sci-Reproducer: ๋…ผ๋ฌธ๊ณผ ์ฝ”๋“œ ์—์ด์ „ํŠธ์˜ ํ˜‘๋ ฅ

SciReplicate-Bench๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์—ฐ๊ตฌ์ง„์€ Sci-Reproducer๋ผ๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. Sci-Reproducer๋Š” ๋ฌธํ—Œ์—์„œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋…์„ ํ•ด์„ํ•˜๋Š” Paper Agent์™€ ์ €์žฅ์†Œ์—์„œ ์ข…์†์„ฑ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์†”๋ฃจ์…˜์„ ๊ตฌํ˜„ํ•˜๋Š” Code Agent๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ง€ํ‘œ: ์ถ”๋ก  ๊ทธ๋ž˜ํ”„ ์ •ํ™•๋„์™€ ์‹คํ–‰ ์ •ํ™•๋„

์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ดํ•ด๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๋ก  ๊ทธ๋ž˜ํ”„ ์ •ํ™•๋„๋ผ๋Š” ์ƒˆ๋กœ์šด ์ง€ํ‘œ๊ฐ€ ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ง€ํ‘œ๋Š” ์ƒ์„ฑ๋œ ์ถ”๋ก  ๊ทธ๋ž˜ํ”„์™€ ์ฝ”๋“œ ์ฃผ์„ ๋ฐ ๊ตฌ์กฐ์—์„œ ํŒŒ์ƒ๋œ ์ฐธ์กฐ ์ถ”๋ก  ๊ทธ๋ž˜ํ”„ ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌํ˜„ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹คํ–‰ ์ •ํ™•๋„, CodeBLEU, ์ €์žฅ์†Œ ์ข…์†์„ฑ/API ์žฌํ˜„์œจ ์ง€ํ‘œ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋†€๋ผ์šด ๊ฒฐ๊ณผ: 39%์˜ ์‹คํ–‰ ์ •ํ™•๋„

์‹คํ—˜ ๊ฒฐ๊ณผ, Sci-Reproducer๋ฅผ ์‚ฌ์šฉํ•œ ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ LLM๋„ ์‹คํ–‰ ์ •ํ™•๋„๊ฐ€ 39%์— ๋ถˆ๊ณผํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” SciReplicate-Bench์˜ ๋‚œ์ด๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋†€๋ผ์šด ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๋ถ„์„ ๊ฒฐ๊ณผ, ๋…ผ๋ฌธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๋ช…์ด ๋ˆ„๋ฝ๋˜๊ฑฐ๋‚˜ ๋ถˆ์ผ์น˜ํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๊ณต์ ์ธ ์žฌํ˜„์˜ ์ฃผ์š” ์žฅ์• ๋ฌผ๋กœ ์ง€์ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ณต๊ฐœ๋œ ๋ฒค์น˜๋งˆํฌ์™€ ์ฝ”๋“œ: https://github.com/xyzCS/SciReplicate-Bench

์—ฐ๊ตฌ์ง„์€ SciReplicate-Bench์™€ ์ฝ”๋“œ๋ฅผ ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•˜์—ฌ, ๋” ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด LLM์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์žฌํ˜„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” LLM์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ๋™์‹œ์—, ์•„์ง ๊ทน๋ณตํ•ด์•ผ ํ•  ๊ณผ์ œ๊ฐ€ ๋งŽ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์•ž์œผ๋กœ LLM์ด ๋”์šฑ ๋ฐœ์ „ํ•˜์—ฌ ๋…ผ๋ฌธ์˜ ๋ณต์žกํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•˜๊ณ  ๊ตฌํ˜„ํ•˜๋Š” ๋‚ ์ด ์˜ค๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค!


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

Published: ย (Updated: )

Author: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

http://arxiv.org/abs/2504.00255v1