TrustGeoGen: 신뢰할 수 있는 다중 모드 기하 문제 해결을 위한 확장 가능하고 공식적으로 검증된 데이터 엔진
TrustGeoGen은 공식 검증을 통해 신뢰할 수 있는 다중 모드 기하 문제 해결을 위한 확장 가능한 데이터 엔진입니다. 다양한 모드의 정보 통합 및 공식 검증을 통해 기존 벤치마크의 한계를 극복하고, 더욱 엄격하고 신뢰할 수 있는 평가를 가능하게 합니다.

기하 문제 해결의 새로운 지평을 열다: TrustGeoGen
수학적 기하 문제 해결(GPS)은 다양한 모드의 정보를 효과적으로 통합하고 검증 가능한 논리적 일관성을 유지해야 하는 어려운 과제입니다. 대규모 언어 모델(LLM)의 발전에도 불구하고, 특히 기존의 합성 GPS 벤치마크가 LLM의 환상으로 인해 자체 검증되지 않고 노이즈와 자체 모순 정보를 포함하고 있다는 점을 고려할 때, 방법론과 벤치마크 측면에서 여전히 미해결 과제로 남아 있습니다.
이러한 문제를 해결하기 위해, Daocheng Fu 등 13명의 연구자는 TrustGeoGen이라는 확장 가능한 데이터 엔진을 제안했습니다. TrustGeoGen은 공식적인 검증을 통해 원칙에 기반한 벤치마크를 제공하여 GPS 방법의 추가 개발을 위한 기반을 마련합니다.
TrustGeoGen의 핵심 혁신은 다음과 같습니다.
- 다중 모드 정렬 생성: 다이어그램, 텍스트 설명, 단계별 솔루션을 정렬하여 생성합니다. 이는 다양한 표현 방식을 통합하여 더욱 포괄적인 문제 해결 환경을 제공합니다.
- 공식 검증: 규칙 준수 추론 경로를 보장하기 위해 공식적인 검증을 수행합니다. 이는 생성된 문제의 정확성과 신뢰성을 보장하는 핵심 요소입니다.
- 부트스트래핑 메커니즘: 재귀적 상태 생성을 통해 복잡성을 점진적으로 높입니다. 이를 통해 다양한 난이도의 문제를 생성하고 모델의 성능을 다각적으로 평가할 수 있습니다.
- GeoExplore 알고리즘: 다중 솔루션 변형과 자기 반성적 백트래킹 추적을 동시에 생성합니다. 이는 문제 해결 과정의 다양성과 투명성을 확보하는 데 기여합니다.
TrustGeoGen은 공식 논리적 검증을 통해 모드 무결성이 보장되는 GeoTrust-200K 데이터 세트와 GeoTrust-test 테스트 세트를 생성했습니다. 실험 결과, 최첨단 모델이 GeoTrust-test에서 49.17%의 정확도만 달성하여 해당 벤치마크의 엄격함을 보여줍니다. 또한 GeoTrust에서 훈련된 모델은 GeoQA에서 OOD(Out-of-Distribution) 일반화를 달성하여 OpenAI-o1에 의해 의사 라벨이 지정된 것보다 논리적 불일치를 크게 줄였습니다.
TrustGeoGen의 코드는 https://github.com/Alpha-Innovator/TrustGeoGen 에서 확인할 수 있습니다. 이 연구는 기하 문제 해결 분야의 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
Published: (Updated: )
Author: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
http://arxiv.org/abs/2504.15780v1