획기적인 비디오 LLM 기술 등장: 토큰 다이내믹스로 압축의 한계를 뛰어넘다!


장해차오와 윤푸 연구팀이 개발한 토큰 다이내믹스는 비디오 LLM의 효율성을 극대화하는 혁신적인 비디오 토큰 표현 프레임워크입니다. 시공간적 일관성을 유지하면서 토큰 수를 99.93% 감소시키는 놀라운 성과를 달성했습니다.

related iamge

압축의 한계를 뛰어넘는 혁신: 토큰 다이내믹스

최근, 대규모 언어 모델(LLM)이 비디오 콘텐츠를 이해하는 데 있어 토큰 기반 비디오 표현이 주목받고 있습니다. 하지만 기존의 토큰 축소 방법들은 토큰을 줄이는 과정에서 중요한 공간-시간적 위치 정보를 훼손하는 단점이 있었습니다. 이는 계산 효율성과 토큰 수 감소 사이의 균형을 제대로 맞추지 못하기 때문입니다. 결과적으로 긴 토큰 시퀀스가 생성되어, 비디오 LLM처럼 극도의 토큰 압축이 필요한 상황에는 적용하기 어려웠습니다.

장해차오(Haichao Zhang)와 윤푸(Yun Fu) 연구팀은 이러한 한계를 극복하기 위해 '초단축 토큰 감소' 라는 새로운 과제를 제시하고, 혁신적인 비디오 표현 프레임워크인 '토큰 다이내믹스(Token Dynamics)' 를 개발했습니다. 토큰 다이내믹스는 시공간적 일관성을 유지하면서 토큰 수를 극적으로 줄이는 데 성공했습니다.

토큰 다이내믹스의 핵심: 시공간 정보의 분리 및 통합

토큰 다이내믹스는 비디오 표현을 시각적 임베딩과 그리드 수준의 동작 정보로 분리하여 다음 세 가지 요소로 구성됩니다.

  1. 간결한 토큰 해시 테이블: 객체 수준의 콘텐츠를 설명하는 토큰들을 클러스터링하여 생성됩니다.
  2. 토큰 인덱스 키 맵: 그리드 간의 상세한 공간-시간적 동작 패턴을 포착합니다.
  3. 토큰 해시 함수: 키 맵에서 토큰 시퀀스를 재구성하기 위해 토큰 해시 테이블을 벡터 양자화합니다.

더 나아가, 연구팀은 크로스-다이내믹스 어텐션 메커니즘을 도입하여 동작 특징을 토큰 기반에 통합하면서도 토큰 길이를 늘리지 않아, 압축성과 시공간적 무결성을 동시에 유지합니다.

놀라운 결과: 99.93% 토큰 감소, 성능 저하 최소화

실험 결과, 토큰 다이내믹스는 원래 토큰의 단 0.07% 만으로 비디오를 표현하는 데 성공했습니다. 성능 저하는 단 1.13% 에 불과했습니다. 또한, 연구팀은 고정 길이 및 적응형 길이 압축이라는 두 가지 새로운 하위 과제를 제시하여 토큰 감소의 새로운 지평을 열었습니다.

토큰 다이내믹스는 이론적 복잡성을 낮추고, 토큰 수를 줄이며, 처리량을 향상시켜 비디오 LLM에 매우 효율적인 솔루션을 제공합니다. 이는 비디오 데이터 처리 및 분석 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 앞으로 이 기술이 어떻게 발전하고 실제 서비스에 적용될지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models

Published:  (Updated: )

Author: Haichao Zhang, Yun Fu

http://arxiv.org/abs/2503.16980v3