촉각까지 이해하는 AI: 시각-촉각 비디오 이해를 위한 획기적인 모델 등장!


Xie Yifan 등 연구진이 개발한 VTV-LLM은 시각 및 촉각 정보를 통합하여 물체를 이해하는 최초의 다중 모달 대형 언어 모델입니다. 방대한 VTV150K 데이터셋과 3단계 훈련 과정을 통해 뛰어난 촉각 추론 능력을 구현, 인간-기계 상호작용의 새로운 가능성을 열었습니다.

related iamge

촉각까지 이해하는 AI의 혁신: VTV-LLM

최근 시각 정보 기반 인공지능(AI)이 괄목할 만한 발전을 이루었지만, 물체의 물리적 특성을 완벽히 이해하기 위해서는 촉각 정보가 필수적입니다. 시각으로는 알 수 없는 물체의 단단함, 탄성, 마찰력 등은 촉각을 통해서만 파악 가능하기 때문입니다. 이러한 한계를 극복하고자, Xie Yifan 등 연구진이 VTV-LLM이라는 혁신적인 다중 모달 대형 언어 모델을 개발했습니다.

VTV-LLM: 시각과 촉각의 만남

VTV-LLM은 시각 정보와 촉각 정보를 결합하여 물체를 이해하는 최초의 모델입니다. 연구진은 GelSight Mini, DIGIT, Tac3D 세 가지 서로 다른 촉각 센서로부터 얻은 100개의 다양한 물체에 대한 150,000개의 비디오 프레임으로 구성된 방대한 데이터셋, VTV150K를 구축했습니다. 이 데이터셋에는 각 물체의 단단함, 돌출 정도, 탄성, 마찰력 등 네 가지 핵심 촉각 속성에 대한 주석이 포함되어 있습니다.

세 단계 훈련 과정: 강력한 촉각 추론 능력

VTV-LLM은 단순한 정보 결합을 넘어, 효과적인 다중 모달 통합을 위해 세 단계의 훈련 과정을 거칩니다. 첫째, VTV Enhancement를 통해 강력한 시각-촉각 표현을 구축합니다. 둘째, VTV-Text Alignment를 통해 시각-촉각 정보와 텍스트 정보 간의 대응 관계를 학습합니다. 마지막으로, Text Prompt Finetuning을 통해 자연어 생성 능력을 향상시킵니다. 이러한 과정을 통해 VTV-LLM은 특징 평가, 비교 분석, 시나리오 기반 의사 결정 등 정교한 촉각 추론 능력을 갖추게 됩니다.

새로운 가능성: 더욱 직관적인 인간-기계 상호작용

실험 결과, VTV-LLM은 기존 모델보다 뛰어난 촉각 비디오 이해 성능을 보였습니다. 이 연구는 촉각 영역에서 더욱 직관적이고 효과적인 인간-기계 상호작용의 토대를 마련할 것으로 기대됩니다. 앞으로 VTV-LLM은 로봇 공학, 가상 현실, 증강 현실 등 다양한 분야에서 혁신적인 발전을 이끌 것으로 예상됩니다. 특히, 촉각 피드백이 중요한 의료, 제조 분야에서의 응용 가능성이 매우 높습니다. 하지만, 데이터셋의 다양성 확보 및 촉각 센서 기술의 발전이 지속적으로 필요한 부분입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Universal Visuo-Tactile Video Understanding for Embodied Interaction

Published:  (Updated: )

Author: Yifan Xie, Mingyang Li, Shoujie Li, Xingting Li, Guangyu Chen, Fei Ma, Fei Richard Yu, Wenbo Ding

http://arxiv.org/abs/2505.22566v1