놀라운 발견! AI, 인간의 사물 인식과 얼마나 닮았을까?


일본 연구팀의 연구 결과, CLIP으로 학습된 AI 모델은 인간의 사물 인식과 세밀한 수준까지 유사하며, 자기 지도 학습 모델은 대략적인 범주 구조를 잘 파악하지만 세밀한 수준에서는 한계를 보임. Gromov-Wasserstein Optimal Transport 기법을 활용한 정교한 비교 분석이 핵심.

related iamge

AI가 인간처럼 사물을 '본다'는 증거? 놀라운 연구 결과 발표!

최근, 일본의 Takahashi, Sasaki, Takeda, Oizumi 연구팀이 흥미로운 연구 결과를 발표했습니다. 바로 심층 신경망(DNN)이 인간의 사물 이미지 유사성 판단과 얼마나 유사한지를 규명한 연구입니다. 기존 연구들이 DNN이 사람과 비슷한 표상을 갖는다는 것을 보여주었지만, 그 유사성이 단순히 큰 범주(coarse) 수준인지, 세밀한 부분(fine-grained)까지 확장되는지는 불명확했습니다.

연구팀은 Gromov-Wasserstein 최적 수송(Optimal Transport) 이라는 독특한 비지도 학습 기법을 사용했습니다. 기존의 표상 유사성 분석과 달리, 이 방법은 인간과 모델의 각 사물 표상 간에 최적의 세밀한 매핑을 추정합니다. 즉, 인간이 어떤 사물을 인식하는 방식과 AI 모델이 같은 사물을 인식하는 방식을 매우 정교하게 비교 분석한 것입니다.

THINGS 데이터셋의 1,854개 사물에 대한 인간의 유사성 판단을 기준으로 실험한 결과는 놀라웠습니다. CLIP으로 학습된 모델은 인간의 사물 표상과 세밀한 수준(fine-grained)과 대략적인 수준(coarse-grained) 모두에서 강력한 매칭을 달성했습니다. 반면, 자기 지도 학습 모델은 세밀한 수준에서는 매칭이 제한적이었지만, 여전히 인간의 대략적인 범주 구조를 반영하는 사물 클러스터를 형성했습니다.

이 연구는 CLIP 기반 모델의 우수성과 자기 지도 학습 모델의 한계를 동시에 보여줍니다. 특히 CLIP 모델의 높은 정확도는 언어 정보가 정확한 사물 표상을 획득하는 데 중요한 역할을 한다는 것을 시사합니다. 자기 지도 학습 모델의 경우, 세밀한 인식 능력은 부족하지만, 대략적인 범주 분류에는 효과적임을 보여주는 결과입니다.

이 연구는 AI가 인간의 인지 능력을 얼마나 정확하게 모방할 수 있는지에 대한 새로운 통찰력을 제공하며, 앞으로 AI 기술 발전에 중요한 방향을 제시할 것으로 기대됩니다. 특히 Gromov-Wasserstein Optimal Transport과 같은 새로운 기법의 활용은 AI 연구의 새로운 지평을 열 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment

Published:  (Updated: )

Author: Soh Takahashi, Masaru Sasaki, Ken Takeda, Masafumi Oizumi

http://arxiv.org/abs/2505.16419v1