획기적인 다중모드 수학 추론 모델 MM-PRM 등장: 인간 개입 없이 70만 개 이상의 데이터 생성


중국과학원 연구팀이 개발한 MM-PRM은 다중모드 수학 추론 모델의 한계를 극복하기 위해 단계별 감독 방식과 MCTS 기반 자동 데이터 생성을 도입했습니다. 70만 개 이상의 단계별 주석 데이터를 사람의 개입 없이 생성하여 다양한 벤치마크에서 성능 향상을 달성했으며, 코드와 데이터를 공개하여 AI 연구에 기여하고 있습니다.

related iamge

꿈틀거리는 AI의 논리적 사고: MM-PRM이 열어젖히는 새로운 지평

최근 다중모드 대규모 언어 모델(MLLM)은 비약적인 발전을 이루었지만, 복잡한 다단계 추론 과정에서는 여전히 어려움을 겪고 있습니다. 논리적 비약이나 부분적으로만 정답에 도달하는 경우가 빈번했죠. 문제는 중간 추론 단계에 대한 세밀한 감독이 부족했기 때문입니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 MM-PRM입니다.

중국과학원 소속 Du Lingxiao 박사 연구팀은 논문 “MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision”을 통해 MM-PRM 모델을 제시했습니다. 이는 완전 자동화된 확장 가능한 프레임워크 내에서 훈련된 프로세스 보상 모델입니다. 연구팀은 먼저 다양한 수학 추론 데이터로 훈련된 강력한 다중모드 모델인 MM-Policy를 구축했습니다. 그리고 검증 가능한 답변이 있는 10,000개의 다중모드 수학 문제로 구성된 MM-K12라는 정교하게 선별된 데이터 세트를 생성하여 기초 데이터로 활용했습니다.

여기서 놀라운 점은 바로 데이터 확장입니다. 몬테카를로 트리 탐색(MCTS) 기반 파이프라인을 활용하여, 무려 700,000개 이상의 단계별 주석을 사람의 표지 작업 없이 자동으로 생성한 것입니다. 이렇게 생성된 방대한 데이터는 인간의 노동력에 대한 의존도를 획기적으로 낮추고, 모델의 학습 효율을 극대화합니다.

이렇게 얻어진 프로세스 보상 모델(PRM)은 Best-of-N 추론 설정에서 후보 추론 경로를 평가하는 데 사용되며, MM-K12 테스트 세트와 OlympiadBench, MathVista 등 다양한 외부 벤치마크에서 모두 상당한 성능 향상을 달성했습니다. 더 나아가, 연구팀은 소프트 라벨, 작은 학습률, 경로 다양성이 PRM 성능 최적화에 효과적임을 확인했습니다. MM-PRM은 프로세스 감독이 다중모드 추론 시스템의 논리적 강건성을 향상시키는 강력한 도구임을 보여줍니다.

GitHub(https://github.com/ModalMinds/MM-PRM) 에서 코드와 데이터를 모두 공개하여, AI 연구 커뮤니티에 귀중한 기여를 하고 있습니다. MM-PRM은 AI가 복잡한 문제를 해결하는 능력을 한 단계 끌어올린 혁신적인 사례로 기억될 것입니다. 앞으로 MM-PRM의 발전이 AI의 논리적 추론 능력 향상에 어떤 영향을 미칠지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

Published:  (Updated: )

Author: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao

http://arxiv.org/abs/2505.13427v1