8회 ABAW 경진대회에서 준우승을 차지한 혁신적인 감정 분석 기술


Jun Yu 등 연구팀은 8회 ABAW 경진대회에서 제안한 이중 단계 크로스-모달 정렬 프레임워크를 통해 감정 모방 강도(EMI) 추정의 정확도를 크게 향상시켜 준우승을 차지했습니다. CLIP, TCN, LSTM 등 최신 기술을 활용하여 다중 모달 데이터의 시너지를 극대화하고 시간적 요소를 고려한 분석으로 미세한 감정 변화까지 포착하는 혁신적인 기술입니다.

related iamge

8회 ABAW 경진대회: 감정 모방 강도(EMI) 추정의 새로운 지평을 열다

인간의 사회적 행동을 이해하고 인간-컴퓨터 상호작용을 발전시키는 데 있어 감정 모방 강도(EMI) 추정은 매우 중요한 역할을 합니다. 하지만, 역동적인 상관 관계 모델링과 다중 모달 시간적 신호의 강력한 융합은 여전히 큰 과제로 남아있습니다. 기존 방법들의 한계, 즉 크로스-모달 시너지 활용의 부족, 노이즈에 대한 민감성, 그리고 세밀한 정렬 기능의 제약을 극복하기 위해, Jun Yu를 비롯한 연구팀은 이중 단계 크로스-모달 정렬 프레임워크를 제안했습니다.

1단계: CLIP 아키텍처 기반의 시각-텍스트 및 청각-텍스트 대조 학습 네트워크를 개발하여 모달 분리 전훈련을 통해 초기 특징 공간 정렬을 달성합니다. 단순히 데이터를 합치는 것이 아니라, 각 모달의 강점을 극대화하는 전략입니다.

2단계: 시간적 순환 신경망(TCN)과 게이트 양방향 LSTM을 통합한 시간 인식 동적 융합 모듈을 도입하여 얼굴 표정의 거시적 진화 패턴과 음향 특징의 국소적 역동성을 각각 포착합니다. 즉, 감정의 변화를 시간의 흐름에 따라 정확하게 분석하는 기술입니다. 여기에 폐색 및 노이즈 하에서 모달 보상을 위한 차별 가능한 가중치 할당을 가능하게 하는 품질 기반 융합 전략이 추가되었습니다. 이는 노이즈나 흐릿한 영상에도 정확한 분석을 가능하게 하는 핵심 기술입니다.

Hume-Vidmimic2 데이터셋을 사용한 실험 결과, 검증 세트에서 6가지 감정 차원에 걸쳐 평균 피어슨 상관 계수 0.51을 달성했습니다. 놀랍게도, 테스트 세트에서는 0.68이라는 높은 성능을 기록하여 8회 ABAW(Affective Behavior Analysis in the Wild) 경진대회 EMI 과제 부문에서 준우승을 차지했습니다. 이는 개방된 환경에서의 미세한 감정 분석을 위한 새로운 가능성을 제시하는 획기적인 결과입니다. 이 연구는 단순히 높은 정확도를 달성하는 것을 넘어, 다양한 모달 데이터의 효율적인 활용과 시간적 요소의 고려를 통해 감정 분석의 새로운 패러다임을 제시하고 있다는 점에서 큰 의미를 가집니다. 향후 연구에서는 이 기술이 다양한 분야, 예를 들어 사회적 로봇, 정신 건강 관리, 인간-컴퓨터 상호 작용 등에 어떻게 응용될 수 있을지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition

Published:  (Updated: )

Author: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu

http://arxiv.org/abs/2503.10603v3