단일 이미지로 다수 인물의 역동적인 상호작용까지 재현하는 AI 모델 등장: DynASyn
단일 참조 이미지에서 다수 주체의 동적인 상호작용까지 사실적으로 합성하는 AI 모델 DynASyn이 개발되었습니다. 개념 기반 사전 정보와 이미지 증강 기법을 통해 주체의 정체성을 유지하면서 동작의 다양성을 확보, 기존 모델들을 능가하는 성능을 보였습니다. 게임, 영화, VR 등 다양한 분야에 혁신을 가져올 것으로 기대됩니다.

단일 이미지, 무한한 가능성: DynASyn이 열어가는 새로운 세계
최근 텍스트-이미지 확산 모델의 발전은 이미지 합성 분야에 혁신을 가져왔습니다. 특히 개인 맞춤형 이미지 합성, 즉 참조 이미지 내 주체의 개인화는 활발한 연구 분야입니다. 하지만 기존 방법들은 주체의 위치 변경이나 다수 주체의 동시 개인화에는 성공적이었으나, 주체의 행동이나 역동적인 상호작용을 수정하는 데는 어려움을 겪었습니다. 이는 단일 참조 이미지만 사용할 경우 더욱 심화되는 과적합 문제 때문입니다.
그 한계를 뛰어넘는 혁신적인 모델, DynASyn이 등장했습니다. 최용진, 박찬훈, 백승준 연구원 팀은 단일 참조 이미지에서 다수 주체의 개인화를 효과적으로 수행하는 DynASyn을 개발했습니다. DynASyn은 개념 기반 사전 정보와 주체의 외모 및 행동을 정렬함으로써 개인화 과정에서 주체의 정체성을 보존합니다. 이는 주체 토큰과 이미지 간의 어텐션 맵을 개념 기반 사전 정보를 통해 규제함으로써 달성됩니다.
더 나아가, 개념 기반 프롬프트 및 이미지 증강을 통해 정체성 유지와 동작 다양성 사이의 균형을 크게 개선했습니다. 증강된 프롬프트로 안내되는 SDE(Stochastic Differential Equation) 기반 편집을 채택하여, 증강된 이미지에서 정체성 일관성을 유지하면서 다양한 외모와 동작을 생성합니다.
실험 결과, DynASyn은 새로운 맥락과 주변 환경과의 역동적인 상호 작용을 가진 주체들의 매우 사실적인 이미지를 합성할 수 있으며, 정량적 및 정성적 측면 모두에서 기존 방법들을 능가하는 성능을 보여주었습니다. 이는 단순한 이미지 합성을 넘어, 주체들의 행동과 상호작용까지 자유롭게 제어할 수 있는 가능성을 열어주는 획기적인 성과입니다.
DynASyn의 등장은 게임 개발, 영화 제작, 가상현실 등 다양한 분야에 혁신적인 변화를 가져올 것으로 예상됩니다. 단일 이미지에서 시작하여 다채롭고 역동적인 세계를 창조하는 DynASyn의 놀라운 능력은 AI 기술의 무한한 가능성을 보여주는 또 하나의 증거입니다. 앞으로 DynASyn이 어떤 놀라운 발전을 이룰지 기대해 볼 만합니다! 🎉
Reference
[arxiv] DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis
Published: (Updated: )
Author: Yongjin Choi, Chanhun Park, Seung Jun Baek
http://arxiv.org/abs/2503.17728v1