머지VQ: 이미지 생성과 표현의 새로운 지평을 열다


중국과학원 연구팀이 개발한 MergeVQ는 토큰 병합과 Look-up Free Quantization 기술을 활용하여 이미지 생성과 시각적 표현 학습을 통합한 혁신적인 프레임워크입니다. ImageNet 실험 결과, 뛰어난 성능과 효율성을 입증했습니다.

related iamge

최근 벡터 양자화(VQ)를 활용한 마스크 이미지 모델링(MIM)은 자기 지도 학습과 이미지 생성 분야에서 큰 성공을 거두었습니다. 하지만 기존 방법들은 생성 품질과 표현 학습, 효율성 간의 균형을 맞추는 데 어려움을 겪어왔습니다.

이러한 한계를 극복하기 위해 등장한 것이 바로 MergeVQ입니다. 중국과학원(CAS) 소속 리 시위안(Siyuan Li) 박사가 이끄는 연구팀이 개발한 MergeVQ는 토큰 병합 기술을 VQ 기반 생성 모델에 통합하여 이미지 생성과 시각적 표현 학습을 하나의 아키텍처에서 통합하는 혁신적인 프레임워크입니다.

MergeVQ의 핵심: 토큰 병합과 Look-up Free Quantization

MergeVQ의 핵심은 토큰 병합 모듈입니다. 이 모듈은 인코더의 자기 주의 블록 이후에 상위 k개의 의미를 잠재 공간에서 분리하여 Look-up Free Quantization (LFQ)과 전역 정렬을 수행합니다. 그리고 디코더의 교차 주의를 통해 미세한 세부 정보를 복원하여 이미지를 재구성합니다. 이는 생성 품질과 표현 학습의 균형을 효과적으로 맞추는 핵심 전략입니다.

이미지 생성 단계에서는 MergeAR이라는 모듈이 도입됩니다. MergeAR은 KV 캐시 압축을 통해 효율적인 래스터 순서 예측을 수행하여 속도를 향상시킵니다.

ImageNet 실험 결과: 압도적인 성능

ImageNet 데이터셋을 이용한 광범위한 실험 결과, MergeVQ는 AR 생성 모델로서 시각적 표현 학습과 이미지 생성 작업 모두에서 경쟁력 있는 성능을 달성했습니다. 동시에 토큰 효율성과 추론 속도 또한 뛰어났다는 점이 주목할 만합니다. 연구팀은 MergeVQ의 코드와 모델을 공개하여(https://apexgen-x.github.io/MergeVQ) 더 많은 연구자들이 이 기술을 활용할 수 있도록 지원하고 있습니다.

결론: 새로운 시대를 여는 MergeVQ

MergeVQ는 이미지 생성과 시각적 표현 학습 분야에 새로운 가능성을 제시하는 획기적인 연구입니다. 토큰 병합과 LFQ를 결합한 효율적이고 강력한 아키텍처는 향후 AI 기반 이미지 처리 기술의 발전에 큰 영향을 미칠 것으로 예상됩니다. 앞으로 MergeVQ를 기반으로 한 더욱 발전된 연구들이 기대됩니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Published:  (Updated: )

Author: Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

http://arxiv.org/abs/2504.00999v1