64k 토큰의 한계? 소설로 밝히는 LLM의 '긴 문맥' 이해 능력


Sil Hamilton 등 연구진이 개발한 Too Long, Didn't Model (TLDM) 벤치마크는 소설을 활용해 LLM의 긴 문맥 이해 능력을 평가합니다. 7개의 최첨단 LLM을 대상으로 한 실험 결과, 64k 토큰 이상에서는 안정적인 이해 능력이 저하되는 것으로 나타나, LLM 개발 방향에 대한 중요한 시사점을 제공합니다.

related iamge

최근 몇 년간, 대규모 언어 모델(LLM)의 컨텍스트 길이(context length)가 수백만 토큰으로 급증했습니다. 하지만 단순히 토큰 수만 늘리는 것만으로는 LLM의 진정한 이해 능력을 평가하기 어렵다는 문제점이 제기되어 왔습니다. 마치 바늘 찾기처럼 특정 단어나 문장만 찾는 방식으로는 LLM의 능력을 제대로 평가할 수 없다는 뜻입니다.

이러한 문제점을 해결하기 위해, Sil Hamilton 등 연구진은 소설을 활용한 새로운 벤치마크를 제시했습니다. 그 이름은 바로 Too Long, Didn't Model (TLDM) . 소설은 128k 토큰을 넘는 경우도 흔하며, 복잡하고 미묘한 구조와 장기적인 의미적 의존성을 지니고 있습니다. TLDM은 모델의 줄거리 요약, 세계관 구성, 시간 경과 파악 능력을 평가하여 LLM의 심층적인 이해 능력을 측정하는 것을 목표로 합니다.

7개의 최첨단 LLM을 대상으로 실험한 결과는 놀라웠습니다. 어떤 모델도 64k 토큰을 넘어서는 긴 문맥에서 안정적인 이해 능력을 유지하지 못했습니다. 이는 LLM 개발자들에게 중요한 시사점을 제공합니다. 단순히 문맥 길이만 늘리는 것이 아니라, 긴 문맥 속에서 복잡한 의미 관계를 얼마나 잘 이해하고 처리하는지에 대한 평가가 중요하다는 것을 보여주는 것입니다. 연구진은 TLDM 벤치마크와 함께 참조 코드와 데이터를 공개하여, 향후 LLM 개발에 도움을 주고 있습니다.

TLDM의 등장은 LLM 연구 분야에 새로운 패러다임을 제시합니다. 단순한 성능 숫자 경쟁에서 벗어나, 진정한 의미의 '이해' 능력을 측정하는 새로운 평가 기준이 필요함을 보여주는 중요한 사건입니다. 앞으로 LLM 개발은 단순히 토큰 수를 늘리는 것에서 벗어나, 긴 문맥 속에서도 의미를 정확하게 파악하고 처리하는 능력 향상에 초점을 맞춰야 할 것입니다. 이러한 변화는 LLM의 실제 응용 분야 확장에도 큰 영향을 미칠 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels

Published:  (Updated: )

Author: Sil Hamilton, Rebecca M. M. Hicke, Matthew Wilkens, David Mimno

http://arxiv.org/abs/2505.14925v1