딥러닝 혁신: 다중 도메인 데이터셋 응축 기술의 등장
최재현 등 연구원팀이 개발한 다중 도메인 데이터셋 응축(MDDC) 기술은 도메인 인식 모듈(DAM)과 주파수 기반 의사 도메인 라벨링을 통해 다중 도메인 상황에서 딥러닝 모델의 성능을 향상시키는 획기적인 방법입니다. 기존 데이터셋 응축 방법의 한계를 극복하고 다양한 분야에서 활용될 것으로 기대됩니다.

최근 딥러닝 모델 학습의 계산 비용과 저장 공간 부담을 줄이기 위한 데이터셋 응축(DC) 기술이 주목받고 있습니다. 하지만 기존 DC 방법들은 현대 데이터셋의 다중 도메인 특성을 간과하는 경향이 있었습니다. 데이터셋은 이제 단일 도메인에 국한되지 않고, 여러 도메인에 걸쳐 이질적인 이미지들로 구성되는 것이 일반적이기 때문입니다.
최재현, 한교진, 이동재, 백성현, 김준모 연구원 팀은 이러한 문제점을 해결하기 위해 다중 도메인 데이터셋 응축(MDDC) 이라는 획기적인 개념을 제시했습니다. MDDC는 단일 도메인과 다중 도메인 환경 모두에서 일반화 성능을 향상시키는 것을 목표로 합니다. 핵심은 바로 도메인 인식 모듈(DAM) 입니다.
DAM은 학습 과정에서 도메인 관련 특징을 학습 가능한 공간 마스크를 통해 각 합성 이미지에 통합합니다. 실제 데이터셋에서는 도메인 레이블이 부족한 경우가 많기 때문에, 연구팀은 주파수 기반 의사 도메인 라벨링 기법을 고안했습니다. 이 기법은 저주파 진폭 통계를 활용하여 도메인 정보를 추정합니다.
흥미로운 점은 DAM이 응축 과정에서만 활성화되고, 기존 방법과 마찬가지로 클래스당 이미지 개수(IPC)를 유지한다는 것입니다. 실험 결과, DAM은 기존 데이터셋 응축 방법에 비해 도메인 내, 도메인 외, 그리고 다양한 아키텍처에서 일관되게 성능 향상을 보였습니다. 이는 다중 도메인 데이터셋을 효율적으로 활용하는 새로운 길을 제시하는 중요한 연구 결과입니다.
이 연구는 단순히 데이터셋의 크기를 줄이는 것을 넘어, 다양한 도메인의 데이터를 효과적으로 학습에 활용할 수 있는 가능성을 열었습니다. 앞으로 DAM과 MDDC는 딥러닝 모델의 성능 향상과 효율적인 학습을 위한 핵심 기술로 자리매김할 것으로 기대됩니다. 특히, 다양한 도메인의 데이터를 포함하는 대규모 데이터셋을 활용하는 분야에서 그 효과가 더욱 클 것으로 예상됩니다.
Reference
[arxiv] DAM: Domain-Aware Module for Multi-Domain Dataset Condensation
Published: (Updated: )
Author: Jaehyun Choi, Gyojin Han, Dong-Jae Lee, Sunghyun Baek, Junmo Kim
http://arxiv.org/abs/2505.22387v1