혁신적인 수화 인식 기술: 지속 수화 동작의 정확한 분할
본 연구는 트랜스포머 기반 아키텍처와 BIO 태깅을 활용하여 지속적인 수화 영상에서 개별 수화 동작을 정확하게 분할하는 새로운 방법을 제시합니다. DGS Corpus 및 BSLCorpus에서 기존 최고 성능을 뛰어넘는 결과를 얻었으며, 수화 인식 기술 발전에 크게 기여할 것으로 기대됩니다.

끊임없이 이어지는 수화의 세계, 이제 정확하게 이해하다!
끊임없이 이어지는 수화 영상에서 개별 수화 동작을 정확하게 구분하는 것은 수화 번역 및 데이터 주석 분야에서 매우 중요한 과제입니다. Low Jian He, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden 등이 주도한 최근 연구는 이 어려운 문제에 대한 획기적인 해결책을 제시했습니다. 바로 트랜스포머 기반 아키텍처를 활용한 새로운 접근 방식입니다.
이 연구팀은 수화 동작의 시간적 역동성을 모델링하는 트랜스포머 기반 아키텍처를 개발했습니다. 수화 동작 분할을 시퀀스 라벨링 문제로 설정하고, Begin-In-Out (BIO) 태깅 기법을 사용하여 각 프레임에 수화 동작의 시작, 중간, 끝을 정확하게 표시합니다. 여기에 HaMeR 손 특징과 3D 각도 정보를 결합하여 모델의 정확성을 더욱 높였습니다.
놀라운 결과가 도출되었습니다. DGS Corpus와 BSLCorpus에 대한 광범위한 실험 결과, 이 모델은 기존 최첨단 기술을 뛰어넘는 성능을 보였습니다. 특히, 사용된 특징들은 기존 벤치마크를 능가하는 성과를 거두었습니다. 이는 수화 인식 기술의 새로운 장을 열 수 있는 잠재력을 보여주는 훌륭한 사례입니다. 앞으로 이 기술을 통해 보다 정확하고 효율적인 수화 번역 시스템 및 데이터 주석 도구 개발이 가속화될 것으로 기대됩니다. 청각 장애인과 비장애인 간의 소통 장벽을 허무는 데 크게 기여할 것으로 예상됩니다.
**:sparkles: 주요 내용 한눈에 :sparkles:
- 문제: 지속적인 수화 영상에서 개별 수화 동작의 정확한 분할
- 해결책: 트랜스포머 기반 아키텍처, BIO 태깅, HaMeR 손 특징 및 3D 각도 정보 활용
- 결과: DGS Corpus 및 BSLCorpus에서 최첨단 성능 달성, 기존 벤치마크 능가
- 의의: 수화 번역 및 데이터 주석 분야의 획기적인 발전, 청각 장애인과의 소통 개선에 기여
Reference
[arxiv] Hands-On: Segmenting Individual Signs from Continuous Sequences
Published: (Updated: )
Author: Low Jian He, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden
http://arxiv.org/abs/2504.08593v2