혁신적인 AI 모델 설계: '그래프팅' 기법으로 확산 트랜스포머 재구성


Stanford 연구팀이 제시한 '그래프팅' 기법은 미리 훈련된 확산 트랜스포머 모델을 수정하여 새로운 아키텍처를 효율적으로 탐색하는 혁신적인 방법입니다. 소량의 추가 훈련만으로도 우수한 성능을 가진 하이브리드 모델을 생성하고, 모델의 속도와 효율성을 향상시키는 데 성공했습니다. 이는 AI 모델 개발의 패러다임을 바꿀 잠재력을 지닌 중요한 연구 성과입니다.

related iamge

혁신적인 AI 모델 설계: '그래프팅' 기법으로 확산 트랜스포머 재구성

AI 모델 아키텍처 설계는 항상 까다로운 문제였습니다. 모델의 성능을 높이기 위해서는 다양한 연산자(예: 어텐션, 컨볼루션)와 구성(예: 깊이, 너비)을 시험해보아야 하지만, 각 시도마다 비용이 많이 드는 사전 훈련 과정이 필요하다는 어려움이 있습니다. Stanford University 연구팀은 이러한 문제를 해결하기 위해 기존 소프트웨어 개발 방식에서 영감을 얻어, **'그래프팅(grafting)'**이라는 혁신적인 기법을 제시했습니다.

그래프팅: 기존 모델을 활용한 효율적인 아키텍처 탐색

그래프팅은 미리 훈련된 확산 트랜스포머(Diffusion Transformers, DiTs)를 수정하여 새로운 아키텍처를 구현하는 간단하면서도 강력한 방법입니다. 연구팀은 활성화 함수의 동작과 어텐션의 지역성에 대한 분석을 바탕으로 DiT-XL/2 모델을 기반으로 테스트베드를 구축했습니다. 이를 통해 소프트맥스 어텐션을 게이트 컨볼루션, 지역 어텐션, 선형 어텐션으로 대체하고, MLP를 가변 확장 비율과 컨볼루션 변형으로 대체하는 등 다양한 하이브리드 모델을 생성했습니다.

놀랍게도, 이러한 하이브리드 모델들은 기존 DiT-XL/2 모델 (FID: 2.27)과 비교하여 2.38~2.64의 FID(Fréchet Inception Distance) 점수를 기록하며, 사전 훈련 연산량의 2% 미만만 사용하고도 우수한 성능을 달성했습니다. 뿐만 아니라, 텍스트-이미지 모델인 PixArt-Sigma에 그래프팅을 적용하여 속도를 1.43배 향상시키면서 GenEval 점수 저하를 2% 미만으로 유지하는 성과도 거두었습니다.

DiT-XL/2 모델의 재구성: 병렬 처리를 통한 효율성 증대

연구팀은 DiT-XL/2 모델의 연속적인 트랜스포머 블록 쌍을 병렬 블록으로 변환하는 방식으로 모델의 구조를 재구성하는 사례 연구도 진행했습니다. 이를 통해 모델의 깊이를 2배 줄이면서도 다른 유사한 깊이의 모델보다 더 나은 성능(FID: 2.77)을 달성했습니다. 이는 그래프팅 기법의 유연성과 효율성을 보여주는 훌륭한 예시입니다.

결론: 그래프팅, AI 모델 설계의 새로운 지평을 열다

이번 연구는 그래프팅 기법을 통해 연산자 교체부터 아키텍처 재구성까지 다양한 방식으로 미리 훈련된 DiT 모델을 수정하여 새로운 확산 모델 디자인을 탐색할 수 있음을 보여줍니다. 그래프팅은 AI 모델 개발의 효율성을 크게 높이고, 새로운 가능성을 열어줄 혁신적인 기법으로 평가받을 수 있습니다. 자세한 내용은 https://grafting.stanford.edu에서 확인하실 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Exploring Diffusion Transformer Designs via Grafting

Published:  (Updated: )

Author: Keshigeyan Chandrasegaran, Michael Poli, Daniel Y. Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei

http://arxiv.org/abs/2506.05340v1