과학 정보 추출을 위한 혁신적인 LLM 훈련법: MimicSFT와 R²GRPO의 만남


Li Ran 등 연구진이 제시한 MimicSFT와 R²GRPO 기반의 LLM 훈련 방법은 기존 LLM의 과학 정보 추출 능력의 한계를 극복하고, 관계 추출 성능을 획기적으로 향상시켰습니다. 이 연구는 과학 정보 추출 분야의 발전에 크게 기여할 것으로 기대됩니다.

related iamge

과학 정보 추출의 난제와 새로운 돌파구

최근 과학 정보 추출(SciIE) 분야에서 거대 언어 모델(LLM)의 활용이 주목받고 있지만, 기존의 LLM들은 작은 Bert 기반 모델보다 성능이 떨어지는 한계를 보였습니다. SciIE는 추론과 암기 능력 모두를 필요로 하는데, 기존의 강화 학습 기반 방법은 추론 경로만 개선할 뿐 추론 능력 자체를 향상시키지 못하는 한계가 있었습니다. Li Ran 등 연구진은 이러한 문제를 해결하기 위해 새로운 두 단계 훈련 방법을 제시했습니다.

1단계: MimicSFT - 고품질 데이터 없이도 가능한 추론

연구진은 첫 번째 단계로, MimicSFT를 제안합니다. MimicSFT는 고품질의 사고 과정 데이터 없이도 구조화된 추론 템플릿을 사용하여 LLM의 추론 능력을 향상시키는 방법입니다. 이는 기존 방법의 데이터 의존성 문제를 해결하는 혁신적인 접근 방식입니다.

2단계: R²GRPO - 관련성과 규칙 기반 보상으로 추론 능력 강화

두 번째 단계에서는 R²GRPO(Relevance and Rule-induced GRPO) 를 활용합니다. R²GRPO는 관련성과 규칙 기반 보상을 통해 LLM의 추론 능력을 더욱 강화합니다. 이는 단순히 추론 경로만 개선하는 것이 아니라, 추론 능력 자체를 향상시키는 것을 목표로 합니다.

놀라운 결과: 최첨단 모델 성능 뛰어넘다

연구 결과, MimicSFT와 R²GRPO를 결합한 방법은 기존의 LLM과 전문적인 지도 학습 모델들을 뛰어넘는 관계 추출 성능을 보였습니다. 특히, 과학 정보 추출 벤치마크 실험에서 그 우수성이 입증되었습니다. 연구팀은 관련 코드를 깃허브(https://github.com/ranlislz/R2GRPO)에 공개하여 다른 연구자들의 활용을 지원하고 있습니다.

결론: SciIE 분야의 새로운 지평을 열다

Li Ran 등 연구진의 연구는 LLM의 과학 정보 추출 능력 향상에 있어 새로운 이정표를 제시합니다. MimicSFT와 R²GRPO의 결합은 데이터 효율성과 성능 향상이라는 두 마리 토끼를 모두 잡았다는 점에서 큰 의미를 지닙니다. 이 연구는 향후 SciIE 분야의 발전에 크게 기여할 것으로 기대됩니다. 앞으로 더욱 다양한 과학 분야에서 LLM의 활용이 확대될 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Beyond path selection: Better LLMs for Scientific Information Extraction with MimicSFT and Relevance and Rule-induced(R$^2$)GRPO

Published:  (Updated: )

Author: Ran Li, Shimin Di, Yuchen Liu, Chen Jing, Yu Qiu, Lei Chen

http://arxiv.org/abs/2505.22068v1