멀티홉 추론의 혁신: '추론 법정(Reasoning Court)' 등장!


Jingtian Wu와 Claire Cardie가 개발한 Reasoning Court(RC)는 LLM의 환각 및 추론 오류 문제를 해결하기 위해 독립적인 판사 LLM을 도입한 혁신적인 멀티홉 추론 프레임워크입니다. HotpotQA, MuSiQue, FEVER 벤치마크에서 기존 최첨단 방식들을 능가하는 성능을 입증하며, LLM 기반 추론 시스템의 새로운 지평을 열었습니다.

related iamge

멀티홉 추론의 혁신: '추론 법정(Reasoning Court)' 등장!

최근 급속한 발전을 이룬 대규모 언어 모델(LLM)은 질의응답이나 사실 확인과 같은 작업에서 놀라운 능력을 보여주고 있습니다. 하지만 여전히 환각(hallucination) 현상과 추론 오류에 시달리는데, 특히 여러 정보원을 통합해야 하는 멀티홉 추론 과제에서는 더욱 그렇습니다. 기존의 접근 방식들은 검색 기반 기법(외부 증거에 추론을 근거로 함), 추론 기반 접근 방식(개선된 프롬프팅을 통해 일관성 향상), 또는 두 가지 요소를 결합한 하이브리드 전략 등을 통해 이러한 문제를 해결하려고 노력해왔습니다.

그중 ReAct라는 하이브리드 방식은 기존 방식들을 뛰어넘는 성능을 보였지만, 중간 추론 단계에 대한 내부 검증이 부족하여 복잡한 추론 과정에서 오류가 누적될 가능성이 있었습니다. 여기서 등장하는 것이 바로 Jingtian WuClaire Cardie가 제안한 '추론 법정(Reasoning Court, RC)' 입니다.

추론 법정(RC): LLM 판사의 등장

RC는 ReAct와 같은 반복적인 추론 및 검색 방법을 확장하여 독립적인 LLM '판사'를 도입한 혁신적인 프레임워크입니다. 판사 LLM은 여러 후보 답변과 관련 추론 과정을 독립적으로 평가합니다. 제시된 추론과 증거를 바탕으로 사실적 근거와 논리적 일관성이 가장 높다고 판단되는 답변을 선택하거나, 모든 후보 답변이 부적절하거나 잘못된 경우, 기존 지식과 사용 가능한 증거를 활용하여 새로운 답변을 생성합니다. 이는 마치 법정에서 판사가 증거를 심사하고 최종 판결을 내리는 과정과 유사합니다.

놀라운 성능: 기존 방식 뛰어넘어

HotpotQA, MuSiQue와 같은 멀티홉 벤치마크와 FEVER와 같은 사실 확인 과제에서 RC는 과제별 미세 조정 없이도 기존 최첨단 몇 샷 프롬프팅 방법들을 꾸준히 능가하는 성능을 보였습니다. 이는 단순히 정보를 검색하고 조합하는 것을 넘어, LLM이 스스로 추론 과정을 검증하고 최적의 답변을 도출하는 능력을 보여주는 획기적인 결과입니다.

RC의 등장은 LLM 기반 추론 시스템의 한계를 극복하고, 보다 정확하고 신뢰할 수 있는 멀티홉 추론을 가능하게 하는 중요한 발걸음입니다. 앞으로 LLM의 발전과 함께, RC와 같은 혁신적인 시스템들이 더욱 발전하고 다양한 분야에 적용될 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning

Published:  (Updated: )

Author: Jingtian Wu, Claire Cardie

http://arxiv.org/abs/2504.09781v1