생각할까 말까? 선택적 추론을 통한 비전-언어 모델의 효율성 혁신
왕지아치 등 연구진이 개발한 TON은 강화학습 기반 비전-언어 모델의 추론 효율성을 획기적으로 개선한 방법입니다. '생각 생략' 전략을 통해 불필요한 추론을 줄이고, 다양한 실험에서 성능 향상을 입증했습니다. 이는 인간과 유사한 추론 패턴을 가진 AI 개발에 한 걸음 더 다가선 쾌거입니다.

최근 비전-언어 모델(VLMs)의 추론 능력 향상을 위해 강화학습(RL)이 널리 활용되고 있습니다. 특히, GRPO(Group Relative Policy Optimization)는 완벽한 추론 과정을 생성하도록 모델을 유도하지만, 토큰 사용량 증가와 계산 비용 증가라는 단점이 존재합니다.
왕지아치 등 연구진은 인간의 사고 과정에서 착안, 쉬운 질문에는 추론을 생략하고 어려운 질문에만 집중하는 선택적 추론 방식을 VLMs에 적용하는 TON(Think or Not)이라는 새로운 방법을 제시했습니다. TON은 두 단계로 구성됩니다.
(i) 지도 학습 미세 조정(SFT) 단계: '생각 생략(thought dropout)' 기법을 도입하여 추론 과정을 무작위로 생략합니다. 이를 통해 모델이 선택적 추론을 위한 기반을 마련합니다. 이는 마치 인간이 문제 해결 과정에서 불필요한 생각을 건너뛰는 것과 유사합니다.
(ii) GRPO 단계: 모델이 언제 추론할지 자유롭게 결정하면서 과제 관련 보상을 극대화하도록 학습합니다. 이는 마치 인간이 문제의 난이도를 판단하여 추론의 강도를 조절하는 것과 같습니다.
연구 결과, TON은 기존 GRPO에 비해 완료 길이를 최대 90%까지 줄이면서도 성능 저하 없이 오히려 향상을 보였습니다. 3B 및 7B 모델을 포함한 다양한 VLMs와 과제에서 일관된 성능 향상을 보이며, 학습이 진행될수록 불필요한 추론 단계를 건너뛰는 것을 확인했습니다. 이는 강화학습 접근 방식에서 인간과 유사한 추론 패턴을 구현하는 중요한 단계를 의미합니다.
본 연구는 GitHub (https://github.com/kokolerk/TON) 에서 코드를 공개했습니다. 이를 통해 더 많은 연구자들이 TON을 활용하여 VLMs의 효율성과 성능을 향상시킬 수 있을 것으로 기대됩니다.
결론적으로, TON은 계산 효율성과 성능 향상이라는 두 마리 토끼를 모두 잡은 혁신적인 연구이며, 인공지능의 추론 능력 발전에 크게 기여할 것으로 예상됩니다. 앞으로 인간과 같은 사고 방식을 갖춘 AI 개발에 대한 기대감을 높여줍니다. 🙏
Reference
[arxiv] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
Published: (Updated: )
Author: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
http://arxiv.org/abs/2505.16854v1