๐ฅ AI๊ฐ ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๋๋ก ์ฌํํ ์ ์์๊น? SciReplicate-Bench ๋ฒค์น๋งํฌ ๋ฑ์ฅ!
๋ณธ ๊ธฐ์ฌ๋ ์ต๊ทผ ๋ฐํ๋ ๋ ผ๋ฌธ "SciReplicate-Bench"๋ฅผ ์๊ฐํ๋ฉฐ, LLM์ ์๊ณ ๋ฆฌ์ฆ ์ฌํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ Sci-Reproducer์ ๋ํด ์์ธํ ์ค๋ช ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ ์ต๊ณ ์ฑ๋ฅ์ LLM๋ 39%์ ์คํ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ, ์๊ณ ๋ฆฌ์ฆ ์ค๋ช ์ ๋ถ์กฑ๊ณผ ๋ถ์ผ์น๊ฐ ์ฃผ์ ์ด๋ ค์์์ ๋ฐํ์ต๋๋ค. SciReplicate-Bench์ ์ฝ๋๋ ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด LLM ๋ฐ์ ์ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.

AI๊ฐ ๋ ผ๋ฌธ ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๋๋ก ๊ตฌํํ๋ค?! SciReplicate-Bench์ ๋๋ผ์ด ๋์
์ต๊ทผ, Xiang Yanzheng ๋ฑ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ "SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers"๋ ์ธ๊ณต์ง๋ฅ(AI) ๋ถ์ผ, ํนํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋๋ผ์ด ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ๋์์ ๋ณด์ฌ์ค๋๋ค. ์ด ์ฐ๊ตฌ๋ LLM์ด ์ต์ NLP ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ ์ค๋ช ์ ๋ฐํ์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค.
๋ ๊ฐ์ง ํต์ฌ ์ญ๋: ์๊ณ ๋ฆฌ์ฆ ์ดํด์ ์ฝ๋ฉ ์ ๋ฌธ์ฑ
LLM์ด ์ด ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ ค๋ฉด ๋ ๊ฐ์ง ํต์ฌ ์ญ๋์ด ํ์ํฉ๋๋ค. ์ฒซ์งธ๋ ์๊ณ ๋ฆฌ์ฆ ์ดํด๋ ฅ์ ๋๋ค. ๋ ผ๋ฌธ๊ณผ ํ์ ๋ฌธํ์์ ์ ๋ณด๋ฅผ ์ข ํฉํ์ฌ ๊ตฌํ ๋ ผ๋ฆฌ๋ฅผ ์ดํดํด์ผ ํฉ๋๋ค. ๋์งธ๋ ์ฝ๋ฉ ์ ๋ฌธ์ฑ์ ๋๋ค. ํ์ํ API๋ฅผ ์๋ณํ๊ณ ์ ํํ๊ฒ ๊ตฌํํ๋ ๋ฅ๋ ฅ์ด ์ค์ํฉ๋๋ค.
SciReplicate-Bench: 100๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์๊ฒฉํ ํ๊ฐ
์ด๋ฌํ ์ญ๋์ ์๊ฒฉํ๊ฒ ํ๊ฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ SciReplicate-Bench๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋์ ํ์ต๋๋ค. SciReplicate-Bench๋ 2024๋ ์ ๋ฐํ๋ NLP ๋ ผ๋ฌธ 36ํธ์์ ์ถ์ถํ 100๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ํฌํจํ๋ฉฐ, ์์ธํ ์ฃผ์๊ณผ ์ข ํฉ์ ์ธ ํ ์คํธ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
Sci-Reproducer: ๋ ผ๋ฌธ๊ณผ ์ฝ๋ ์์ด์ ํธ์ ํ๋ ฅ
SciReplicate-Bench๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ฐ๊ตฌ์ง์ Sci-Reproducer๋ผ๋ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. Sci-Reproducer๋ ๋ฌธํ์์ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ ์ ํด์ํ๋ Paper Agent์ ์ ์ฅ์์์ ์ข ์์ฑ์ ๊ฒ์ํ๊ณ ์๋ฃจ์ ์ ๊ตฌํํ๋ Code Agent๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
์๋ก์ด ํ๊ฐ ์งํ: ์ถ๋ก ๊ทธ๋ํ ์ ํ๋์ ์คํ ์ ํ๋
์๊ณ ๋ฆฌ์ฆ ์ดํด๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ถ๋ก ๊ทธ๋ํ ์ ํ๋๋ผ๋ ์๋ก์ด ์งํ๊ฐ ๋์ ๋์์ต๋๋ค. ์ด ์งํ๋ ์์ฑ๋ ์ถ๋ก ๊ทธ๋ํ์ ์ฝ๋ ์ฃผ์ ๋ฐ ๊ตฌ์กฐ์์ ํ์๋ ์ฐธ์กฐ ์ถ๋ก ๊ทธ๋ํ ๊ฐ์ ์ ์ฌ์ฑ์ ์ ๋ํํฉ๋๋ค. ๊ตฌํ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํด์๋ ์คํ ์ ํ๋, CodeBLEU, ์ ์ฅ์ ์ข ์์ฑ/API ์ฌํ์จ ์งํ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค.
๋๋ผ์ด ๊ฒฐ๊ณผ: 39%์ ์คํ ์ ํ๋
์คํ ๊ฒฐ๊ณผ, Sci-Reproducer๋ฅผ ์ฌ์ฉํ ์ต๊ณ ์ฑ๋ฅ์ LLM๋ ์คํ ์ ํ๋๊ฐ 39%์ ๋ถ๊ณผํ์ต๋๋ค. ์ด๋ SciReplicate-Bench์ ๋์ด๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋๋ผ์ด ๊ฒฐ๊ณผ์ ๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ ์ค๋ช ์ด ๋๋ฝ๋๊ฑฐ๋ ๋ถ์ผ์นํ๋ ๊ฒ์ด ์ฑ๊ณต์ ์ธ ์ฌํ์ ์ฃผ์ ์ฅ์ ๋ฌผ๋ก ์ง์ ๋์์ต๋๋ค.
๊ณต๊ฐ๋ ๋ฒค์น๋งํฌ์ ์ฝ๋: https://github.com/xyzCS/SciReplicate-Bench
์ฐ๊ตฌ์ง์ SciReplicate-Bench์ ์ฝ๋๋ฅผ ์คํ ์์ค๋ก ๊ณต๊ฐํ์ฌ, ๋ ๋ง์ ์ฐ๊ตฌ์๋ค์ด LLM์ ์๊ณ ๋ฆฌ์ฆ ์ฌํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ๊ธฐ์ฌํ ์ ์๋๋ก ํ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ LLM์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ ๋์์, ์์ง ๊ทน๋ณตํด์ผ ํ ๊ณผ์ ๊ฐ ๋ง์์ ๋ณด์ฌ์ค๋๋ค. ์์ผ๋ก LLM์ด ๋์ฑ ๋ฐ์ ํ์ฌ ๋ ผ๋ฌธ์ ๋ณต์กํ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ๊ฒ ์ดํดํ๊ณ ๊ตฌํํ๋ ๋ ์ด ์ค๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค!
Reference
[arxiv] SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers
Published: ย (Updated: )
Author: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He
http://arxiv.org/abs/2504.00255v1