혁신적인 AI 모델 'Thinkless': 언제 생각해야 할지 스스로 배우는 LLM

Gongfan Fang, Xinyin Ma, Xinchao Wang 연구팀이 개발한 'Thinkless'는 LLM이 문제의 복잡성에 따라 추론 방식을 선택하는 학습 프레임워크로, DeGRPO 알고리즘을 통해 효율성과 정확성을 동시에 향상시켰습니다. 벤치마크 결과 장문 추론 사용량을 50~90% 감소시키는 놀라운 성과를 보였습니다.

생각은 선택적으로! 'Thinkless'가 LLM의 효율성 혁신을 이끌다

최근 괄목할 만한 성과를 보이는 Reasoning Language Model (RLM)은 복잡한 논리적 추론이 필요한 작업에서 놀라운 성능을 보여주고 있습니다. 하지만 모든 질문에 정교한 추론을 적용하면, 특히 간단한 해결책이 있는 문제의 경우, 상당한 계산 비효율성이 발생하는 문제점이 있었습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 **'Thinkless'**입니다. 중국과학원의 Gongfan Fang, Xinyin Ma, Xinchao Wang 연구팀이 개발한 'Thinkless'는 LLM이 과제의 복잡성과 모델의 능력에 따라 단답형 추론과 장문 추론 중에서 적응적으로 선택할 수 있도록 하는 학습 가능한 프레임워크입니다.

'Thinkless'의 핵심은 강화학습 패러다임 하에 훈련되며, 간결한 응답을 위한 <short> 토큰과 상세한 추론을 위한 <think> 토큰을 사용한다는 점입니다. 특히, DeGRPO (Decoupled Group Relative Policy Optimization) 알고리즘을 통해 하이브리드 추론의 학습 목표를 두 가지 구성 요소로 분해합니다.

제어 토큰 손실: 추론 모드 선택을 제어
응답 손실: 생성된 답변의 정확도 향상

이러한 분리된 공식은 각 목표의 기여를 세밀하게 제어하여, 기존 GRPO에서 관찰된 붕괴를 효과적으로 방지하고 학습을 안정화시킵니다.

Minerva Algebra, MATH-500, GSM8K 등 여러 벤치마크에서 'Thinkless'는 장문 추론 사용량을 50%~90%까지 줄여 RLM의 효율성을 크게 향상시켰습니다. 실제로 'Thinkless'는 효율성을 극대화하며 문제 해결에 필요한 만큼만 '생각'하는 지능적인 시스템임을 증명했습니다. 관련 코드는 Github에서 확인할 수 있습니다.

결론적으로, 'Thinkless'는 LLM의 효율성을 획기적으로 개선하며, AI의 실용성과 발전에 중요한 이정표를 제시하는 연구 성과라고 할 수 있습니다. 앞으로 더욱 발전된 'Thinkless'를 통해 AI가 더욱 스마트하고 효율적으로 작동하는 미래를 기대해 볼 수 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Thinkless: LLM Learns When to Think

Published: (Updated: )

Author: Gongfan Fang, Xinyin Ma, Xinchao Wang

http://arxiv.org/abs/2505.13379v1