혁신적인 AI 모델 CoRE: 구조화된 지식 추론의 새 지평을 열다
본 기사는 Jiawei Gu 등 연구팀이 개발한 CoRE(Contrastive Retrieval-Augmented Generation on Experience) 프레임워크를 소개합니다. CoRE는 대규모 언어 모델(LLM)의 구조화된 데이터 처리 능력을 향상시키는 혁신적인 방법으로, 대조 학습과 경험 기반 메모리를 활용하여 인간과 유사한 지식 전이를 시뮬레이션합니다. 실험 결과, CoRE는 Text-to-SQL 및 TableQA 과제에서 평균 3.44%4.24%의 성능 향상을 보였으며, 최대 17.2%의 성능 향상을 기록했습니다. MCTS 기반 경험 메모리는 훈련 데이터를 89배 확장하여 다양성과 도메인 적용 범위를 향상시켰습니다. CoRE는 훈련 없이 지속적인 학습이 가능하며, LLM의 활용 범위를 넓히는 데 크게 기여할 것으로 예상됩니다.

구조화된 데이터의 벽을 허물다: CoRE의 등장
최근 괄목할 만한 발전을 이룬 대규모 언어 모델(LLM)은 일반 텍스트 작업에서는 뛰어난 성능을 보여주지만, 표나 데이터베이스와 같은 구조화된 데이터 처리에는 어려움을 겪습니다. Jiawei Gu를 비롯한 연구팀은 이러한 LLM의 한계를 극복하기 위해 CoRE(Contrastive Retrieval-Augmented Generation on Experience) 라는 혁신적인 프레임워크를 제시했습니다. 연구팀은 LLM이 사전 훈련 과정에서 구조화된 데이터에 대한 노출이 부족하고, 텍스트-구조 변환 메커니즘이 경직되어 있음을 지적하며, 이를 '인지적 격차'로 정의했습니다.
인간의 지식 전이를 모방하다:
CoRE는 이러한 인지적 격차를 해소하기 위해, 대조 학습(Contrastive Learning) 과 경험 기반 메모리(Experience Memory) 를 결합하는 독창적인 접근 방식을 채택했습니다. 이는 인간이 다양한 데이터 유형에서 학습한 패턴을 자연스럽게 적용하는 방식을 모방한 것입니다. 특히, CoRE는 In-Context Learning(ICL) 을 통해 인간과 유사한 지식 전이를 시뮬레이션합니다. 즉, LLM이 기존 경험을 활용하여 새로운 구조화된 데이터를 더 효과적으로 이해하고 처리할 수 있도록 돕는 것입니다.
눈에 띄는 성능 향상:
Text-to-SQL 및 TableQA 과제에 대한 실험 결과는 CoRE의 효과를 명확하게 보여줍니다. CoRE는 평균 3.44%와 4.24%의 성능 향상을 달성했으며, 특히 어려운 과제에서는 최대 17.2%의 성능 향상을 기록했습니다. 이는 CoRE가 LLM의 구조화된 지식 처리 능력을 현저하게 향상시킨다는 것을 의미합니다. 더욱 놀라운 것은 Monte Carlo Tree Search (MCTS) 를 활용하여 생성된 경험 메모리가 훈련 데이터를 8~9배 확장하여 데이터의 다양성과 도메인 적용 범위를 크게 향상시켰다는 점입니다.
훈련 없이 지속 가능한 학습:
CoRE는 추가적인 훈련 없이도 지속적으로 성능을 향상시킬 수 있는 장점을 가지고 있습니다. 이러한 훈련 없는 지속적인 학습 방법은 LLM을 구조화된 지식 전문가로 발전시키는 데 크게 기여할 것으로 기대됩니다. CoRE의 등장은 LLM의 활용 범위를 넓히고, 다양한 분야에서 더욱 효과적인 AI 시스템 개발을 가능하게 할 것으로 예상됩니다. 앞으로 CoRE를 기반으로 한 연구가 더욱 활발하게 진행되어 AI 기술의 발전에 중요한 역할을 할 것으로 전망됩니다.
Reference
[arxiv] Toward Structured Knowledge Reasoning: Contrastive Retrieval-Augmented Generation on Experience
Published: (Updated: )
Author: Jiawei Gu, Ziting Xian, Yuanzhen Xie, Ye Liu, Enjie Liu, Ruichao Zhong, Mochi Gao, Yunzhi Tan, Bo Hu, Zang Li
http://arxiv.org/abs/2506.00842v1