딥러닝 이미지 생성 모델 훈련 속도 28배 향상: HASTE 알고리즘의 혁신


NUS-HPC-AI-Lab 연구팀이 개발한 HASTE 알고리즘은 딥러닝 기반 이미지 생성 모델의 훈련 속도를 기존 대비 최대 28배 향상시키는 획기적인 성과를 달성했습니다. 기존 REPA 기법의 한계를 극복하는 2단계 훈련 전략을 통해 효율성과 성능을 동시에 개선하였으며, ImageNet 및 MS-COCO 데이터셋에서 그 효과를 입증했습니다.

related iamge

NUS-HPC-AI-Lab 연구팀의 놀라운 연구 결과가 발표되었습니다! Ziqiao Wang을 필두로 한 12명의 연구진은 HASTE (Holistic Alignment with Stage-wise Termination for Efficient training) 라는 새로운 알고리즘을 통해 딥러닝 기반 이미지 생성 모델의 훈련 속도를 획기적으로 향상시켰습니다. 기존 최고 성능을 자랑하는 Diffusion Transformer (DiT) 모델의 훈련은 매우 느리다는 것이 알려져 왔습니다. 이 문제를 해결하기 위해 등장한 REPA (representation alignment) 기법은 초기 단계에서는 효과적이었지만, 훈련 후반부에는 성능 향상이 정체되거나 오히려 저하되는 현상을 보였습니다.

연구팀은 이러한 REPA의 한계를 '용량 불일치' 문제로 분석했습니다. 즉, 생성 모델이 데이터 분포를 학습하기 시작하면, 교사 모델(예: DINO)의 저차원 임베딩과 어텐션 패턴이 오히려 모델 학습을 방해하는 요소로 작용한다는 것입니다.

이러한 문제를 해결하기 위해 HASTE는 2단계 훈련 전략을 제시합니다.

Phase 1: Holistic Alignment: 이 단계에서는 교사 모델의 어텐션 맵(관계적 정보)과 특징 벡터(의미적 정보)를 DiT의 중간 레이어에 동시에 주입하는 '전체적 정렬 손실'을 적용합니다. 이를 통해 DiT 모델은 빠르게 수렴할 수 있습니다.

Phase 2: One-shot Termination: 특정 반복 횟수(예: 고정된 반복 횟수)에 도달하면 정렬 손실을 비활성화합니다. 이를 통해 DiT는 잡음 제거 및 생성 능력 향상에 집중할 수 있게 됩니다.

HASTE는 다양한 DiT 모델에 적용 가능하며, 모델 구조 변경 없이 훈련 속도를 향상시킵니다. ImageNet 256x256 데이터셋에서 HASTE는 기존 SiT-XL/2 모델의 성능에 도달하는데 필요한 훈련 단계를 28배나 줄였습니다 (50 epoch vs 1400 epoch). 또한, MS-COCO 데이터셋을 사용한 텍스트-이미지 생성 모델에서도 성능 향상을 확인했습니다.

이번 연구는 단순하면서도 원리에 충실한 효율적인 확산 훈련 방법을 제시하여, 딥러닝 기반 이미지 생성 모델의 발전에 크게 기여할 것으로 기대됩니다. 자세한 내용과 코드는 https://github.com/NUS-HPC-AI-Lab/HASTE 에서 확인할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

Published:  (Updated: )

Author: Ziqiao Wang, Wangbo Zhao, Yuhao Zhou, Zekai Li, Zhiyuan Liang, Mingjia Shi, Xuanlei Zhao, Pengfei Zhou, Kaipeng Zhang, Zhangyang Wang, Kai Wang, Yang You

http://arxiv.org/abs/2505.16792v1