스몰 빅 히어로: 놀라운 성능의 초소형 멀티모달 모델 SmolVLM 등장!
소형 경량화에 성공한 멀티모달 모델 SmolVLM이 기존 대규모 모델을 능가하는 성능을 보이며 모바일 및 에지 기기에서의 AI 활용 가능성을 넓혔습니다. 효율적인 아키텍처, 토큰화 전략, 데이터 관리를 통해 1GB 미만의 메모리로도 뛰어난 성능을 구현했습니다.

최근 AI 분야에서 가장 뜨거운 감자 중 하나는 바로 대규모 비전-언어 모델(VLMs) 입니다. 엄청난 성능을 자랑하지만, 그만큼 막대한 컴퓨팅 자원을 필요로 한다는 단점이 있습니다. 모바일 기기나 에지 디바이스에서는 사용이 불가능할 정도죠. 기존의 소형 VLMs는 대규모 모델을 단순히 축소한 형태였기에 효율성이 떨어졌습니다. 마치 거대한 엔진을 작은 차에 억지로 쑤셔넣은 것과 같았죠.
하지만 이제 상황이 달라졌습니다! Andrés Marafioti를 비롯한 17명의 연구진이 개발한 SmolVLM이 등장했기 때문입니다. SmolVLM은 이름처럼 작지만 강력한 멀티모달 모델입니다. 연구진은 모델 아키텍처, 토큰화 전략, 데이터 관리 방식 등을 체계적으로 최적화하여, 컴퓨팅 자원 소모를 최소화하면서도 뛰어난 성능을 달성했습니다. 이는 마치 가볍지만 강력한 새의 날갯짓과 같은 혁신입니다.
가장 작은 모델인 SmolVLM-256M은 추론 과정에서 1GB 미만의 GPU 메모리만 사용하면서도, 무려 300배나 큰 Idefics-80B 모델보다 뛰어난 성능을 보여줍니다. 18개월이라는 개발 기간 차이를 무색하게 만드는 놀라운 결과입니다. 가장 큰 모델인 2.2B 파라미터 모델 역시, 기존 최첨단 VLMs에 필적하는 성능을 보여주면서 GPU 메모리 사용량은 절반 수준으로 줄였습니다. 게다가 SmolVLM은 정지 이미지뿐 아니라 비디오까지 이해할 수 있어 활용도가 더욱 높아졌습니다.
SmolVLM의 성공은 단순한 기술적 진보를 넘어, AI의 대중화를 앞당길 중요한 이정표가 될 것입니다. 더 이상 막대한 자원이 없어도, 모바일 기기에서도 강력한 AI 기능을 활용할 수 있는 시대가 열리고 있는 것입니다. SmolVLM은 작지만 강력한 힘으로 AI의 미래를 밝게 비추고 있습니다. 마치 작은 돌멩이가 큰 물결을 일으키듯 말이죠. 🌊
Reference
[arxiv] SmolVLM: Redefining small and efficient multimodal models
Published: (Updated: )
Author: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
http://arxiv.org/abs/2504.05299v1