합성 훈련 데이터의 현실성, 정말 중요할까요? 🤔


합성 훈련 데이터의 현실성(feasibility)이 CLIP 기반 분류기 성능에 미치는 영향을 연구한 결과, 현실성 여부가 성능에 미치는 영향은 미미하며, 현실적/비현실적 이미지를 혼합하여 사용해도 성능 저하가 크지 않다는 사실을 발견했습니다. VariReal이라는 새로운 파이프라인을 통해 배경, 색상, 질감 세 가지 속성에 대한 실험을 진행하였습니다.

related iamge

합성 훈련 데이터의 현실성, 성능에 미치는 영향은 미미하다?

최근 사진처럼 사실적인 이미지를 생성하는 확산 모델의 발전으로, 합성 데이터로 훈련된 모델들의 성능이 향상되고 있습니다. 하지만 여전히 개가 공중에 떠 있거나 비현실적인 질감이 나타나는 등 현실에 존재하지 않는 이미지들이 생성되는 문제가 있습니다.

류이웬, 제시카 베이더, 김재명 연구팀은 이러한 합성 이미지의 '현실성(feasibility)'이라는 개념에 주목하여 연구를 진행했습니다. 연구팀은 합성 이미지 속 속성이 실제 세계에서 존재할 수 있는지 여부를 현실성으로 정의하고, 이 기준에 부합하지 않는 이미지를 '비현실적' 이미지로 분류했습니다. 일반적으로 비현실적인 이미지는 분포 밖(out-of-distribution)으로 간주되기 때문에, 이러한 이미지로 훈련하면 실제 데이터에 대한 모델의 일반화 능력이 저하될 것이라고 예상할 수 있습니다.

하지만 과연 현실성이 정말 중요할까요? 연구팀은 CLIP 기반 분류기를 위한 합성 훈련 데이터 생성 시 현실성을 강제하는 것이 필요한지 여부를 조사했습니다. 배경, 색상, 질감 세 가지 속성에 초점을 맞춰, 대규모 언어 모델이 생성한 텍스트 프롬프트를 기반으로 현실적인 또는 비현실적인 속성을 가진 이미지를 생성하는 VariReal이라는 파이프라인을 개발했습니다.

놀랍게도, 실험 결과는 현실성이 CLIP 성능에 미치는 영향이 미미함을 보여주었습니다. 세 가지 세분화된 데이터셋에 걸쳐 상위 1위 정확도의 차이는 대부분 0.3% 미만이었습니다! 속성에 따라서는 비현실적인 이미지가 성능에 부정적인 영향을 미치는 경우도 있었지만, 전반적으로 현실성의 중요성은 생각보다 낮았습니다. 또한, 현실적인 이미지와 비현실적인 이미지를 섞어서 사용하더라도 성능 저하는 크지 않았습니다.

이 연구는 합성 데이터를 활용한 모델 훈련에서 현실성에 대한 기존의 인식을 재고하게 만드는 중요한 결과를 제시합니다. 합성 데이터의 현실성에 대한 맹목적인 집착보다는, 데이터의 다양성과 모델의 성능을 종합적으로 고려하는 접근이 필요하다는 점을 시사합니다. 향후 합성 데이터 기반 AI 모델 개발에 중요한 시사점을 제공할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data

Published:  (Updated: )

Author: Yiwen Liu, Jessica Bader, Jae Myung Kim

http://arxiv.org/abs/2505.10551v1