DyMU: 효율적인 VLMs를 위한 동적 병합 및 가상 분할 기술의 혁신


DyMU는 훈련이 필요 없는 효율적인 프레임워크로, 동적 토큰 병합 및 가상 분할 기술을 통해 VLMs의 계산 부하를 32~85%까지 줄이면서 성능 저하 없이 높은 성능을 유지합니다. 이미지 복잡도에 따라 동적으로 적응하고 사용자 제어 기능을 제공하는 것이 특징입니다.

related iamge

최근 비전-언어 모델(VLMs)의 발전은 눈부시지만, 계산 비용이 높다는 단점이 존재합니다. 이 문제를 해결하기 위해 등장한 것이 바로 DyMU입니다. Wang Zhenhailong 등 연구진이 개발한 DyMU는 훈련 없이도 VLMs의 계산 부하를 획기적으로 줄이는 동적 프레임워크입니다.

핵심은 두 가지 혁신적인 기술, 동적 토큰 병합(DToMe)과 가상 토큰 분할(VTU)에 있습니다.

먼저, DToMe은 이미지의 복잡도에 따라 유사한 시각 토큰을 동적으로 병합합니다. 기존 비전 트랜스포머의 고정 길이 출력으로 인한 비효율성을 극복하는 핵심 전략입니다. 즉, 이미지가 단순하면 토큰 수를 줄이고, 복잡하면 더 많은 토큰을 유지하는 지능적인 방식입니다.

다음으로, VTU는 대규모 언어 모델(LLMs)의 예상 토큰 시퀀스를 효율적으로 재구성하여 전체 시퀀스의 어텐션 동역학을 유지합니다. 추가적인 미세 조정 없이도 다운스트림 성능을 보존하는 놀라운 기술입니다.

DyMU의 가장 큰 장점은 훈련이 필요 없다는 것입니다. 이를 통해 기존 최첨단 VLM 아키텍처에 쉽게 적용할 수 있으며, AnyRes 기반의 최신 시각 인코더에도 효과적으로 적용 가능합니다.

실험 결과는 놀랍습니다. DyMU는 다양한 VLM 아키텍처에서 평균 시각 토큰 수를 32%~85%까지 감소시키면서도 기존 모델과 동등한 성능을 유지했습니다. 뿐만 아니라, DToMe은 이미지 복잡도에 따라 토큰 감소를 효과적으로 적용하고, 사용자에게 계산 비용에 대한 더 많은 제어권을 제공합니다.

이 연구는 VLMs의 효율성을 획기적으로 높이는 동시에 사용자 편의성까지 고려한 혁신적인 결과입니다. DyMU는 VLMs의 실용화를 한 단계 더 앞당길 잠재력을 지니고 있으며, 앞으로 다양한 분야에서 활용될 것으로 기대됩니다. 자세한 내용은 프로젝트 페이지 (https://mikewangwzhl.github.io/dymu/)를 참조하세요.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Published:  (Updated: )

Author: Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

http://arxiv.org/abs/2504.17040v1