seq-JEPA: 불변-동변 세계 모델의 자기회귀 예측 학습 - 새로운 AI 패러다임의 등장?


seq-JEPA는 기존 자기 지도 학습의 한계를 극복하는 새로운 세계 모델링 패러다임으로, 불변성과 동변성을 동시에 학습하여 다양한 작업에서 우수한 성능을 보입니다. 입력 이미지의 여러 뷰 시퀀스를 처리하여 변환에 대한 불변 및 동변 표현을 효율적으로 학습하는 것이 특징입니다.

related iamge

최근 AI 분야에서 자기 지도 학습(Self-Supervised Learning)이 주목받고 있습니다. 데이터 증강과 마스킹과 같은 변환을 통해 시각적 표현을 학습하는 기존 알고리즘들은 두 개의 이미지 뷰를 인코딩하여 불변성 또는 동변성을 유도합니다. 하지만 이러한 '두 뷰 패러다임'은 이미지 분류와 같은 불변성 관련 작업과 더 세분화된 동변성 관련 작업 간의 성능 저하를 초래할 수 있다는 한계를 지닙니다.

Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari 등 연구진은 이러한 문제를 해결하기 위해 seq-JEPA를 제시합니다. seq-JEPA는 공동 임베딩 예측 아키텍처(joint-embedding predictive architecture) 기반의 세계 모델링 패러다임으로, 아키텍처의 유도적 편향을 활용하여 불변성과 동변성 간의 절충을 해결합니다. 추가적인 동변성 예측기나 손실 항을 필요로 하지 않고, 하나는 특정 변환에 대해 동변적인 표현, 다른 하나는 불변적인 표현(분류와 같은 작업에 적합)을 동시에 학습합니다.

seq-JEPA의 핵심은 입력 이미지의 여러 뷰(관측)의 짧은 시퀀스를 처리하는 데 있습니다. 각 인코딩된 뷰는 다음 관측을 생성하는 상대적 변환(액션)에 해당하는 임베딩과 연결됩니다. 변환기 인코더는 이 시퀀스의 집계 표현을 출력하고, 이는 이후 다음 관측의 표현을 예측하기 위해 액션을 조건으로 합니다.

실험 결과, seq-JEPA는 동변성 벤치마크와 이미지 분류에서 뛰어난 성능을 보이며, 서로를 희생하지 않고 두 가지 모두에서 우수한 결과를 달성합니다. 또한 액션에 걸친 경로 통합 및 안구 운동에 걸친 예측 학습과 같이 관측 시퀀스의 집계가 본질적으로 필요한 작업에서도 탁월한 성능을 보입니다. 이는 기존의 한계를 뛰어넘는 새로운 AI 패러다임의 가능성을 보여주는 중요한 결과입니다. 향후 연구를 통해 seq-JEPA가 다양한 분야에서 어떻게 활용될지 기대됩니다. 😉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models

Published:  (Updated: )

Author: Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari

http://arxiv.org/abs/2505.03176v1