놀라운 결과에도 불구하고: 이유 없는 중간 토큰의 효과에 대한 새로운 시각
대규모 언어 모델의 추론 능력 향상에 대한 기존 연구의 한계를 지적하고, 중간 토큰의 의미론적 영향을 체계적으로 평가한 연구 결과를 소개합니다. 정확한 중간 과정이 최종 결과에 미치는 영향이 제한적이며, 노이즈 데이터를 사용한 훈련에서도 성능 저하가 미미하다는 사실을 밝힘으로써, LLM의 추론 과정에 대한 기존의 인식을 재고해야 함을 시사합니다.

최근 대규모 언어 모델(LLM)의 놀라운 추론 능력 향상은 '사고 연쇄(Chain of Thought, CoT)'의 승리로 해석되어 왔습니다. 특히, 기본 LLM에서 샘플링된 CoT를 이용한 훈련을 통해 새로운 추론 패턴을 발견하는 데 성공했다는 평가입니다. 하지만 Kaya Stechly 등의 연구진은 이러한 해석에 대한 비판적 검토를 통해 새로운 시각을 제시합니다.
연구진은 중간 토큰(intermediate tokens) , 즉 '생각'이나 추론 과정으로 인격화되는 토큰의 의미론적 영향을 면밀히 조사했습니다. 기존 연구는 이러한 중간 토큰이 되짚어보기, 자기 검증 등의 행동을 보인다고 주장했지만, 연구진은 이러한 주장에 의문을 제기합니다.
연구진은 형식적으로 검증 가능한 추론 과정과 솔루션을 사용하여 트랜스포머 모델을 훈련했습니다. 중간 단계와 최종 결과 모두 A* 탐색 알고리즘의 결과와 일치하도록 제약 조건을 설정했습니다. 문제와 알고리즘의 의미를 형식적으로 해석하는 인터프리터를 구축하여 솔루션의 정확성뿐 아니라 중간 과정의 정확성도 체계적으로 평가했습니다. 이는 중간 과정의 정확성이 최종 솔루션의 정확성에 인과적으로 영향을 미치는지 평가하기 위함입니다.
흥미로운 결과가 나타났습니다. 솔루션만을 기준으로 훈련한 모델에 비해 상당한 성능 향상이 있었지만, 완전히 정확한 추론 과정을 사용하여 훈련된 모델조차도 정답에 도달하는 과정에서 잘못된 추론 과정을 생성했습니다. 중간 과정의 정확성과 최종 솔루션의 정확성 사이의 관계가 느슨하다는 것을 보여주기 위해, 연구진은 특정 문제와 관련 없는 노이즈가 포함된 잘못된 추론 과정을 사용하여 모델을 훈련했습니다. 놀랍게도, 정확한 데이터로 훈련된 모델과 비교하여 성능 저하가 거의 없었으며, 경우에 따라 성능이 향상되고 분포 외(out-of-distribution) 작업에서 더욱 견고한 일반화 능력을 보였습니다.
이러한 결과는 중간 토큰이나 '사고 연쇄'가 예측 가능한 추론 행동을 유도한다는 가정에 의문을 제기합니다. 연구진은 중간 토큰의 결과를 인격화하거나, 그것이 인간과 같은 행동이나 알고리즘적 행동의 증거로 과도하게 해석하는 것을 경고합니다. 이 연구는 LLM의 추론 능력에 대한 우리의 이해에 새로운 시각을 제공하며, 앞으로의 연구 방향을 제시하는 중요한 결과입니다. LLM의 '블랙박스' 속 추론 과정에 대한 깊이 있는 이해가 필요함을 보여주는 사례입니다. 이는 단순히 정확한 답을 얻는 것 이상으로, 그 과정의 투명성과 해석 가능성에 대한 중요성을 강조하는 것입니다.
Reference
[arxiv] Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens
Published: (Updated: )
Author: Kaya Stechly, Karthik Valmeekam, Atharva Gundawar, Vardhan Palod, Subbarao Kambhampati
http://arxiv.org/abs/2505.13775v1