거대 언어 모델의 한계: 토큰화의 함정
거대 언어 모델(LLM)의 추론 능력은 토큰화 방식에 크게 의존하며, 적절한 토큰화는 작은 모델의 성능을 향상시키고 큰 모델의 한계를 극복하는 데 중요한 역할을 합니다.

최근 연구에서 거대 언어 모델(LLM)의 놀라운 능력에도 불구하고, 그 성능을 제한하는 중요한 요소가 밝혀졌습니다. 바로 토큰화(Tokenization) 입니다. 장샹, 조준태 등 연구진이 발표한 논문 "토큰화 제약 조건: 상징적 및 산술적 추론 한계 연구"에서 밝혀진 내용은 우리의 기존 인식을 뒤흔들 만큼 충격적입니다.
일반적으로 Chain-of-Thought (CoT) 프롬프팅 기법을 통해 LLM은 중간 단계를 외부화함으로써 순환 계산을 모방할 수 있습니다. 하지만 이 연구는 이러한 추론의 성공이 토큰화된 입력의 구조에 의해 근본적으로 제한된다는 것을 보여줍니다. 특히, 바이트 쌍 인코딩(BPE)과 같은 서브워드 기반 방법은 원자적 추론 단위를 병합하거나 왜곡하여 상징적 계산을 방해합니다.
연구진은 토큰 인식(Token Awareness) 이라는 새로운 개념을 도입했습니다. 이는 토큰의 세분화 수준이 논리적 정합성과 모델의 일반화 능력에 어떻게 영향을 미치는지 정량화하는 척도입니다. 즉, 토큰이 너무 크거나 작으면 모델이 추론 과정에서 핵심적인 정보를 놓치거나 잘못 해석할 수 있다는 것입니다.
연구 결과는 놀랍습니다. 산술 및 상징적 작업에 대한 체계적인 평가를 통해 토큰 구조가 추론 성능에 극적인 영향을 미치는 것으로 나타났습니다. 심지어 CoT를 사용하더라도 토큰화가 잘못되면 모델은 실패할 수 있습니다. 반대로, 원자적으로 정렬된 형식은 강력한 일반화를 가능하게 하여 작은 모델(예: GPT-4o-mini)이 큰 모델(예: o1)보다 구조적 추론에서 더 나은 성능을 보여주었습니다. 이는 LLM의 상징적 추론 능력이 순전히 아키텍처에 의존하는 것이 아니라 토큰 수준 표현에 크게 의존한다는 것을 의미합니다.
결론적으로, 이 연구는 LLM 개발에 있어 토큰화의 중요성을 강조합니다. 단순히 큰 모델을 만드는 것만이 아니라, 토큰화 방식을 신중하게 설계하여 모델의 추론 능력을 향상시키는 것이 중요하다는 점을 시사합니다. 이는 LLM의 한계를 극복하고 더욱 강력하고 정확한 인공지능 시스템을 구축하는 데 중요한 전환점이 될 것입니다. 앞으로 LLM 연구는 단순히 모델 크기에만 집중하는 것이 아니라, 토큰화와 같은 기본적인 요소에 대한 깊이 있는 이해를 바탕으로 진행되어야 합니다.
Reference
[arxiv] Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits
Published: (Updated: )
Author: Xiang Zhang, Juntai Cao, Jiaqi Wei, Yiwei Xu, Chenyu You
http://arxiv.org/abs/2505.14178v1