CODA: 연속 VAE를 활용한 혁신적인 이산 토큰화 프레임워크


류쩌위 등 연구진이 개발한 CODA는 기존 이산적 시각 토큰화의 한계를 극복하는 혁신적인 프레임워크입니다. 연속 VAE를 활용하여 압축과 이산화 과정을 분리함으로써 안정적인 학습, 높은 코드북 활용률, 뛰어난 재구성 품질을 달성했습니다. ImageNet 벤치마크에서 기존 방식보다 훨씬 적은 학습 비용으로 우수한 성능을 보였으며, 향후 시각 토큰화 기술 발전에 크게 기여할 것으로 기대됩니다.

related iamge

이미지의 혁신적인 디지털 언어: CODA의 등장

최근 딥러닝 분야에서 이미지를 텍스트처럼 처리하는 기술이 주목받고 있습니다. 이미지를 일련의 토큰(token)으로 변환하는 이산적 시각 토큰화는 이러한 흐름의 핵심 기술입니다. 하지만 기존의 이산적 토큰화 방식은 압축과 이산화를 동시에 학습하기 때문에, 학습 불안정성, 낮은 코드북 활용률, 낮은 재구성 품질 등의 문제점을 안고 있었습니다.

류쩌위(Zeyu Liu) 등 연구진이 제시한 CODA(COntinuous-to-Discrete Adaptation) 는 이러한 문제를 해결하기 위한 획기적인 시도입니다. CODA는 기존의 접근 방식과 달리 압축과 이산화 과정을 분리합니다. 이미 이미지 압축에 최적화된 연속 VAE(Variational Autoencoder) 를 활용하여 이미지를 효과적으로 압축하고, 그 후에 이산화 과정을 거쳐 토큰으로 변환하는 방식입니다.

이러한 접근법을 통해 CODA는 다음과 같은 놀라운 성과를 달성했습니다.

  • 안정적이고 효율적인 학습: 압축과 이산화 과정을 분리함으로써 학습 과정의 안정성을 크게 향상시켰습니다.
  • 높은 코드북 활용률: 100%에 달하는 코드북 활용률을 달성하여 효율적인 토큰 표현을 가능하게 했습니다.
  • 뛰어난 재구성 품질: ImageNet 256x256 벤치마크에서 VQGAN보다 6배 적은 학습 비용으로, rFID(reconstruction FID) 0.43 (8배 압축), 1.34 (16배 압축)를 달성하며 우수한 재구성 품질을 선보였습니다.

CODA는 기존 이산적 시각 토큰화의 한계를 극복하고, 연속 VAE의 장점을 활용하여 더욱 안정적이고 효율적인 이미지 토큰화를 가능하게 하는 혁신적인 프레임워크입니다. 이는 이미지 생성, 이해, 검색 등 다양한 분야에 폭넓은 파급 효과를 가져올 것으로 기대됩니다. 특히, 적은 학습 비용으로 높은 성능을 달성한 점은 실용적인 측면에서 큰 의미를 지닙니다. 앞으로 CODA를 기반으로 한 더욱 발전된 시각 토큰화 기술들이 등장할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] CODA: Repurposing Continuous VAEs for Discrete Tokenization

Published:  (Updated: )

Author: Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang

http://arxiv.org/abs/2503.17760v1