AI 법률 자문의 미래: LLM의 신뢰성 평가와 한계 극복


본 연구는 LLM이 생성한 3중 구조 법률 주장을 자동 평가하는 파이프라인을 제시합니다. LLM의 환각 방지 능력은 높지만, 요소 활용 및 자제 능력은 부족함을 보여주며, 법률 분야 LLM 적용을 위한 향상된 기술 개발의 필요성을 시사합니다.

related iamge

최근 대규모 언어 모델(LLM)이 법률 분야에서 주목받고 있습니다. 복잡한 법적 주장 생성과 같은 과업에 LLM을 활용하려는 시도가 늘고 있지만, 그 신뢰성에 대한 우려 또한 커지고 있습니다. Li Zhang 등 연구진은 이러한 문제점을 해결하기 위해 LLM의 성능을 자동으로 평가하는 획기적인 파이프라인을 개발했습니다.

3중 구조 법률 주장 생성 평가: 환각과 자제 능력에 주목

연구진은 기존의 인간 평가 방식을 넘어, 자동화된 파이프라인을 통해 LLM이 생성한 3중 구조(3-ply)의 사례 기반 법률 주장을 평가했습니다. 이 평가는 크게 세 가지 측면에 집중합니다. 첫째, '환각(hallucination)': 입력 자료에 없는 내용을 생성하는 오류 여부, 둘째, '요소 활용': 입력 사례에서 제시된 관련 요소를 얼마나 잘 활용하는지, 셋째, '자제(abstention)': 사실적 근거가 없을 때 주장 생성을 중단하는 능력입니다.

외부 LLM 활용 및 3단계 테스트

파이프라인은 외부 LLM을 활용하여 생성된 주장에서 요소를 추출하고, 입력 사례(현재 사례와 두 개의 선례)의 실제 요소와 비교하는 방식으로 작동합니다. 연구진은 세 가지 난이도의 테스트를 설계했습니다. 첫 번째는 표준적인 3중 구조 주장 생성, 두 번째는 선례의 역할을 바꿔 생성하는 테스트, 세 번째는 공통 요소가 없어 주장 생성이 불가능할 때 생성을 중단하는 능력을 평가하는 테스트입니다.

결과: 높은 정확도에도 불구, 요소 활용과 자제 능력 부족

8개의 LLM을 대상으로 실험한 결과, 놀랍게도 현재 LLM은 타당한 주장 생성 테스트(1, 2단계)에서는 환각을 피하는 데 90% 이상의 높은 정확도를 보였습니다. 하지만, 사례에 있는 관련 요소를 모두 활용하지 못하는 한계를 보였습니다. 특히, 자제 능력 테스트(3단계)에서는 대부분의 모델이 공통 요소가 없음에도 불구하고 주장 생성을 중단하지 못했습니다.

결론: 법률 분야 LLM 적용을 위한 과제

이 연구는 LLM의 법률 분야 적용 가능성을 보여주는 동시에, 요소 활용 및 자제 능력 향상의 필요성을 강조합니다. 자동화된 평가 파이프라인은 LLM의 신뢰성을 높이기 위한 중요한 도구로 활용될 수 있으며, 향후 법률 AI 시스템 개발에 있어 중요한 지침을 제공할 것으로 기대됩니다. LLM의 잠재력을 최대한 활용하고, 신뢰할 수 있는 법률 AI 시스템을 구축하기 위한 지속적인 연구와 개발이 필요합니다. 이 연구는 이러한 노력에 중요한 이정표를 제시합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments

Published:  (Updated: )

Author: Li Zhang, Morgan Gray, Jaromir Savelka, Kevin D. Ashley

http://arxiv.org/abs/2506.00694v2