틱톡과 비트츄 영상 분석으로 성차별 감지의 새로운 지평을 열다: MuSeD 데이터셋
본 기사는 스페인어 소셜 미디어 영상 내 성차별 감지를 위한 다중 모드 데이터셋 MuSeD에 대한 연구 결과를 소개합니다. MuSeD는 틱톡과 비트츄에서 추출한 11시간 분량의 영상 데이터를 기반으로 하며, 시각, 음성, 텍스트 정보를 통합하여 성차별을 감지하는 혁신적인 시스템입니다. 연구 결과, 시각 정보가 성차별 콘텐츠 식별에 중요한 역할을 하지만, 암시적 성차별 감지는 어려움을 겪는 것으로 나타나 사회문화적 맥락을 고려한 정교한 분석의 필요성을 강조하고 있습니다.

온라인상의 성차별은 텍스트뿐 아니라 영상을 통해서도 광범위하게 확산되고 있습니다. 특히 짧은 영상 공유 플랫폼의 등장은 이러한 현상을 더욱 심화시키고 있습니다. 이러한 문제에 효과적으로 대응하기 위해, Laura De Grazia를 비롯한 연구팀은 혁신적인 솔루션을 제시했습니다. 바로 MuSeD입니다.
MuSeD는 다중 모드 스페인어 데이터셋으로, 틱톡과 비트츄에서 추출한 약 11시간 분량의 영상을 포함하고 있습니다. 이 데이터셋은 단순히 텍스트만 분석하는 것이 아니라, 시각, 음성, 텍스트 정보를 통합하여 성차별을 감지하는 것을 목표로 합니다. 이는 기존의 텍스트 기반 성차별 감지 시스템의 한계를 뛰어넘는 획기적인 시도입니다.
연구팀은 MuSeD를 통해 혁신적인 어노테이션 프레임워크를 제안했습니다. 이 프레임워크는 텍스트와 다중 모드 레이블의 기여도를 분석하여 성차별 콘텐츠를 보다 정확하게 분류할 수 있도록 설계되었습니다. 특히, 연구 결과는 시각 정보가 성차별 콘텐츠 식별에 중요한 역할을 한다는 것을 보여줍니다. 사람과 모델 모두 시각 정보에 의존하여 성차별적 콘텐츠를 식별하는 경향이 있음을 확인했습니다.
하지만, 연구팀은 흥미로운 한계점도 발견했습니다. 대규모 언어 모델(LLM)과 다중 모드 LLM은 명시적인 성차별은 효과적으로 감지했지만, 암시적인 성차별(예: 고정관념)에는 어려움을 겪었습니다. 이는 어노테이터들 사이에서도 의견 불일치가 발생하는 부분과 일치합니다. 이러한 결과는 사회문화적 맥락을 고려한 정교한 분석의 필요성을 강조하고 있습니다. 즉, 단순한 키워드 매칭을 넘어, 사회적 함의를 이해하는 더욱 발전된 시스템이 필요하다는 것을 시사합니다.
MuSeD 데이터셋과 연구 결과는 향후 온라인상의 성차별 감지 기술 개발에 중요한 기여를 할 것으로 기대됩니다. 이 연구는 단순히 기술적인 발전을 넘어, 사회적 책임과 윤리적인 문제에 대한 고민을 담고 있다는 점에서 큰 의미를 가집니다. 앞으로 더욱 발전된 기술을 통해 온라인 플랫폼을 더욱 안전하고 공정한 공간으로 만들 수 있기를 기대합니다.
Reference
[arxiv] MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos
Published: (Updated: )
Author: Laura De Grazia, Pol Pastells, Mauro Vázquez Chas, Desmond Elliott, Danae Sánchez Villegas, Mireia Farrús, Mariona Taulé
http://arxiv.org/abs/2504.11169v1