seq-JEPA: 불변-등변 세계 모델의 자기회귀 예측 학습 - AI 학계의 혁신적인 발걸음
seq-JEPA는 기존 자기지도학습의 한계를 극복한 새로운 세계 모델링 프레임워크로, 불변성과 등변성을 동시에 학습하여 다양한 작업에서 우수한 성능을 보이며, 특히 시계열 데이터 처리에 탁월한 성능을 보입니다.

자기지도학습, 즉 AI가 데이터를 스스로 학습하는 기술 분야에서 획기적인 연구 결과가 발표되었습니다. Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari 세 연구자는 seq-JEPA 라는 새로운 세계 모델링 프레임워크를 제안하여 기존의 한계를 뛰어넘는 성과를 달성했습니다.
기존의 자기지도학습 알고리즘은 주로 데이터 증강 및 마스킹과 같은 변환에 의존하여 시각적 표현을 학습합니다. 두 개의 이미지 뷰를 인코딩한 후 이러한 변환에 대한 불변성 또는 등변성을 강화하는 방식입니다. 하지만 이러한 두 뷰 패러다임은 이미지 분류와 같은 고차원 불변성이 요구되는 작업과 미세한 등변성 관련 작업 간의 성능 저하라는 단점을 가지고 있었습니다.
seq-JEPA는 이러한 문제를 해결하기 위해 공동 임베딩 예측 아키텍처에 구조적 귀납적 편향을 도입합니다. 기존의 이중 등변성 예측기나 손실 항에 의존하지 않고, 두 가지 구조적으로 분리된 표현을 동시에 학습합니다. 하나는 특정 변환에 대한 등변성을, 다른 하나는 불변성을 학습하는 것입니다.
seq-JEPA는 입력의 여러 뷰(관측)들의 짧은 시퀀스를 처리합니다. 각각 인코딩된 뷰는 다음 관측값을 생성하는 상대적 변환(액션)의 임베딩과 연결됩니다. 이러한 뷰-액션 쌍은 트랜스포머 인코더를 통과하여 집계된 표현을 출력합니다. 예측 헤드는 이 집계된 표현을 다음 액션에 따라 조건화하여 다음 관측값의 표현을 예측합니다.
실험 결과, seq-JEPA는 한쪽에 치우침 없이 등변성과 불변성 벤치마크 모두에서 강력한 성능을 보였습니다. 특히, 액션에 걸친 경로 통합이나 안구 운동에 걸친 예측 학습과 같이 관측 시퀀스의 집계가 필요한 작업에서 탁월한 성능을 보였습니다. 이는 기존의 자기지도학습 알고리즘의 한계를 극복하고, AI의 시각적 지능 발전에 큰 기여를 할 것으로 기대됩니다. 특히, 시계열 데이터 처리 분야에서 새로운 가능성을 제시하는 혁신적인 연구라 할 수 있습니다.
이 연구는 단순히 이미지를 인식하는 것을 넘어, 시간에 따른 변화와 상호작용을 이해하고 예측하는 AI의 발전을 가속화하는 중요한 전환점이 될 것입니다.
Reference
[arxiv] seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models
Published: (Updated: )
Author: Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari
http://arxiv.org/abs/2505.03176v2