획기적인 AI 법률 글쓰기 평가: 브라질 변호사 시험을 넘어선 LLMs
브라질 변호사 시험 기반의 새로운 법률 글쓰기 평가 벤치마크 oab-bench를 통해 Claude-3.5 Sonnet과 OpenAI의 o1 모델이 뛰어난 성능을 보였으며, AI의 법률 분야 자동화 평가 가능성을 확인했습니다.

최근 대규모 언어 모델(LLM)의 발전에도 불구하고, 개방형 답변을 평가하는 법률 글쓰기 영역에서는 벤치마크가 부족했습니다. 도메인 특화 작업에서 언어 모델을 평가하는 주요 과제는 공개적이고, 자주 업데이트되며, 포괄적인 평가 지침이 포함된 테스트 데이터 세트를 찾는 것입니다.
Ramon Pires, Roseval Malaquias Junior, Rodrigo Nogueira 세 연구원이 이 문제에 대한 해결책을 제시했습니다. 바로 브라질 변호사 시험(OAB)을 활용한 새로운 벤치마크, oab-bench입니다. oab-bench는 최근 시험 문제 105개를 7개 법률 영역에 걸쳐 포함하고 있으며, 인간 평가자의 기준과 참고 자료를 함께 제공하여 일관된 채점을 보장합니다. 이는 공개적으로 접근 가능하며, 정기적인 업데이트를 통해 최신 정보를 반영할 수 있다는 점에서 큰 의미를 가집니다.
연구팀은 네 개의 LLM을 oab-bench로 평가했습니다. 그 결과, Claude-3.5 Sonnet이 평균 7.93점(10점 만점)으로 가장 우수한 성적을 거두며, 21개 모든 시험을 통과했습니다. 이는 LLM의 법률 영역 이해도와 응용 능력을 보여주는 놀라운 성과입니다. 이는 단순히 점수 이상의 의미를 갖습니다. AI가 법률 전문가 수준의 글쓰기 능력을 갖추었음을 보여주는 중요한 지표이기 때문입니다.
하지만 연구는 여기서 그치지 않았습니다. 연구팀은 LLM이 법률 글쓰기 평가의 자동화된 심사관으로서 신뢰할 수 있는지도 조사했습니다. 그 결과, OpenAI의 o1과 같은 최첨단 모델이 승인된 시험에 대한 인간 점수와 높은 상관관계를 보였습니다. 이는 법률 글쓰기 평가의 주관적인 측면에도 불구하고, AI가 신뢰할 수 있는 자동화된 평가자로서의 잠재력을 가지고 있음을 시사합니다. 이는 법률 분야의 효율성 향상과 객관성 확보에 크게 기여할 수 있는 혁신적인 발견입니다.
연구의 모든 소스 코드와 벤치마크(문제, 평가 지침, 모델 생성 응답 및 자동 평가 포함)는 공개적으로 이용 가능합니다. 이는 다른 연구자들이 oab-bench를 활용하여 LLM의 법률 글쓰기 능력을 더욱 정확하게 평가하고, AI 기반 법률 서비스의 발전에 기여할 수 있도록 합니다. 이는 AI 기술 발전에 있어서 중요한 이정표가 될 뿐만 아니라, 법률 분야의 혁신을 가속화하는 촉매제 역할을 할 것으로 기대됩니다. 향후 법률 AI 분야의 발전과 oab-bench의 활용에 대한 지속적인 관심이 필요합니다.
Reference
[arxiv] Automatic Legal Writing Evaluation of LLMs
Published: (Updated: )
Author: Ramon Pires, Roseval Malaquias Junior, Rodrigo Nogueira
http://arxiv.org/abs/2504.21202v1