생각으로 그림을 그리다: 과학 다이어그램 생성을 위한 다중 모달 추론의 혁신


중국과학원 자동화연구소 연구팀이 개발한 DwT는 MLLM을 활용, 훈련 없이 과학 다이어그램을 XML 코드로 변환하는 프레임워크입니다. Plot2XML 벤치마크를 통해 높은 정확도와 시각적 만족도를 검증, 과학 그래픽의 기계 이해 발전에 기여할 것으로 예상됩니다.

related iamge

과학 다이어그램은 다양한 학문 분야에서 지식을 전달하는 필수적인 도구입니다. 하지만, 종종 정적인 래스터 이미지로 발표되어 기호적 의미가 상실되고 재사용이 제한되는 문제가 있습니다. 최근 다중 모달 대규모 언어 모델(MLLM)이 시각과 구조 간의 연결 고리를 제공하는 가능성을 열었지만, 기존 방법들은 특히 복잡한 다이어그램에서 의미 제어와 구조적 해석성이 부족했습니다.

중국과학원 자동화연구소의 Zhiqing Cui 박사 연구팀은 이러한 문제를 해결하고자, 훈련이 필요 없는 새로운 프레임워크인 'Draw with Thought (DwT)'를 제안했습니다. DwT는 MLLM을 이용하여 다이어그램을 편집 가능한 mxGraph XML 코드로 재구성하는데, 인지적으로 기반을 둔 Chain-of-Thought 추론을 활용합니다. 이는 모델 미세 조정 없이 해석 가능하고 제어 가능한 출력을 가능하게 합니다.

DwT는 크게 두 단계로 나뉩니다. 첫째, 'Coarse-to-Fine Planning' 단계는 지각적 구조화와 의미 명세를 처리합니다. 둘째, 'Structure-Aware Code Generation' 단계는 형식 안내 미세 조정을 통해 구조적으로 유효한 코드를 생성합니다.

연구팀은 평가를 지원하기 위해 247개의 실제 과학 다이어그램과 XML 주석으로 구성된 Plot2XML 벤치마크를 공개했습니다. 여덟 개의 MLLM에 대한 광범위한 실험 결과, DwT는 높은 충실도, 의미 정합성, 구조적 유효성을 갖는 재구성 결과를 보였으며, 인간 평가에서도 정확성과 시각적 미학 모두에서 강력한 정합성을 확인했습니다.

DwT는 정적인 시각 자료를 실행 가능한 표현으로 변환하고 과학 그래픽에 대한 기계 이해를 발전시키는 확장 가능한 솔루션을 제공합니다. 이 연구는 과학적 지식의 표현과 활용 방식에 혁신적인 변화를 가져올 것으로 기대됩니다. 향후 다양한 분야에서의 응용과 더욱 발전된 연구가 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation

Published:  (Updated: )

Author: Zhiqing Cui, Jiahao Yuan, Hanqing Wang, Yanshu Li, Chenxu Du, Zhenglong Ding

http://arxiv.org/abs/2504.09479v1