🚨 AI의 κ³Όλ―Ό λ°˜μ‘: μ‹œκ°μ  응급 상황 인식 λͺ¨λΈμ˜ ν•œκ³„ λ°ν˜€μ Έ 🚨


KAIST μ—°κ΅¬μ§„μ˜ 연ꡬ κ²°κ³Ό, λŒ€κ·œλͺ¨ λΉ„μ „-μ–Έμ–΄ λͺ¨λΈλ“€μ΄ μ‹œκ°μ  응급 상황 μΈμ‹μ—μ„œ κ³Όλ―Ό λ°˜μ‘ 문제λ₯Ό 보이며 μ•ˆμ „ν•œ 상황을 μœ„ν—˜ν•œ μƒν™©μœΌλ‘œ μ˜€μΈν•˜λŠ” 높은 ν™•λ₯ μ„ λ³΄μ˜€λ‹€. λͺ¨λΈ 크기 증가가 해결책이 μ•„λ‹ˆλΌλŠ” 점을 밝히며, λ¬Έλ§₯적 μ•ˆμ „ 평가 λŠ₯λ ₯ ν–₯상을 μœ„ν•œ μƒˆλ‘œμš΄ μ ‘κ·Ό λ°©μ‹μ˜ ν•„μš”μ„±μ„ κ°•μ‘°.

related iamge

AI의 눈, κ³Όλ―Όν•œκ°€μš”? μ‹œκ°μ  응급 상황 인식 λͺ¨λΈμ˜ 'κ³Όμž‰ λ°˜μ‘' 문제

졜근, KAIST 연ꡬ진(μ΅œλ‹€μ†”, μ΄μŠΉν˜„, μ†‘μ˜μˆ™)이 λ°œν‘œν•œ λ…Όλ¬Έμ—μ„œ λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(VLMs) 의 μ•ˆμ „μ„±μ— λŒ€ν•œ μ‹¬κ°ν•œ 문제점이 λ“œλŸ¬λ‚¬μŠ΅λ‹ˆλ‹€. VLMsλŠ” 이미지와 ν…μŠ€νŠΈλ₯Ό ν•¨κ»˜ μ΄ν•΄ν•˜λŠ” λ›°μ–΄λ‚œ λŠ₯λ ₯을 λ³΄μ—¬μ£Όμ§€λ§Œ, μ•ˆμ „μ΄ μ€‘μš”ν•œ μƒν™©μ—μ„œλŠ” 신뒰성이 λ–¨μ–΄μ§„λ‹€λŠ” 것이 연ꡬλ₯Ό 톡해 ν™•μΈλœ κ²ƒμž…λ‹ˆλ‹€.

연ꡬ진은 VERI (Visual Emergency Recognition Dataset) λΌλŠ” μƒˆλ‘œμš΄ 데이터셋을 λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€. 이 데이터셋은 100쌍의 λŒ€μ‘°μ μΈ 이미지(응급 상황 이미지와 λΉ„μŠ·ν•˜μ§€λ§Œ μ•ˆμ „ν•œ 이미지)둜 κ΅¬μ„±λ˜μ–΄ 있으며, 닀단계 검증을 거쳐 정확성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€. 14개의 VLMs (20μ–΅~1240μ–΅ νŒŒλΌλ―Έν„°)λ₯Ό λŒ€μƒμœΌλ‘œ 의료 응급 상황, 사고, μžμ—° μž¬ν•΄ λ“± λ‹€μ–‘ν•œ μƒν™©μ—μ„œ μœ„ν—˜ 식별 및 응급 λŒ€μ‘ λŠ₯λ ₯을 ν‰κ°€ν•œ κ²°κ³Ό, λ†€λΌμš΄ 사싀이 λ°œκ²¬λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

좩격적인 κ²°κ³Ό: μ•ˆμ „ν•œ 상황을 μœ„ν—˜ν•œ μƒν™©μœΌλ‘œ μ˜€μΈν•˜λŠ” 높은 ν™•λ₯ 

λͺ¨λΈλ“€μ€ μ‹€μ œ 응급 상황을 70100%의 높은 μ •ν™•λ„λ‘œ μ‹λ³„ν–ˆμ§€λ§Œ, μ•ˆμ „ν•œ 상황을 μœ„ν—˜ν•œ μƒν™©μœΌλ‘œ 잘λͺ» νŒλ‹¨ν•˜λŠ” 'κ³Όμž‰ λ°˜μ‘' λΉ„μœ¨μ΄ 무렀 3196%에 λ‹¬ν–ˆμŠ΅λ‹ˆλ‹€! 심지어 λͺ¨λ“  λͺ¨λΈμ΄ μ‹€νŒ¨ν•œ μ‹œλ‚˜λ¦¬μ˜€λ„ 10κ°œλ‚˜ μžˆμ—ˆλ‹€κ³  ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 였λ₯˜μ˜ 88~93%λŠ” λ¬Έλ§₯을 잘λͺ» ν•΄μ„ν•œ λ°μ„œ κΈ°μΈν•œλ‹€λŠ” 점 λ˜ν•œ μ£Όλͺ©ν•  λ§Œν•©λ‹ˆλ‹€.

λͺ¨λΈ 크기 증가, 해결책이 μ•„λ‹ˆλ‹€?

ν₯미둜운 점은, λͺ¨λΈμ˜ 크기가 컀진닀고 ν•΄μ„œ μ΄λŸ¬ν•œ κ³Όλ―Ό λ°˜μ‘ λ¬Έμ œκ°€ ν•΄κ²°λ˜μ§€ μ•Šμ•˜λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” λ‹¨μˆœνžˆ λͺ¨λΈμ˜ 크기λ₯Ό ν‚€μš°λŠ” κ²ƒλ§ŒμœΌλ‘œλŠ” μ‹œκ°μ  μ •λ³΄μ˜ μ •ν™•ν•œ 해석과 μ•ˆμ „ν•œ νŒλ‹¨μ„ μœ„ν•œ 근본적인 문제λ₯Ό ν•΄κ²°ν•  수 μ—†μŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

μ•žμœΌλ‘œμ˜ 과제: λ¬Έλ§₯적 μ•ˆμ „ 평가 ν–₯상

이번 연ꡬ κ²°κ³ΌλŠ” VLMs의 μ•ˆμ „ν•œ ν™œμš©μ„ μœ„ν•΄μ„œλŠ” λ¬Έλ§₯을 κ³ λ €ν•œ μ•ˆμ „ 평가 λŠ₯λ ₯을 κ°œμ„ ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식이 ν•„μš”ν•¨μ„ κ°•λ ₯ν•˜κ²Œ μ‹œμ‚¬ν•©λ‹ˆλ‹€. λ‹¨μˆœνžˆ 'μ•ˆμ „ 제일'의 μ›μΉ™λ§ŒμœΌλ‘œλŠ” μ‹€μ œ μ‘μš© λΆ„μ•Όμ—μ„œ VLMs의 신뒰성을 ν™•λ³΄ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” 것을 λ³΄μ—¬μ£ΌλŠ” μ€‘μš”ν•œ μ—°κ΅¬μž…λ‹ˆλ‹€. μ•žμœΌλ‘œ μ‹œκ°μ μœΌλ‘œ μ˜€ν•΄μ˜ μ†Œμ§€κ°€ μžˆλŠ” μƒν™©μ—μ„œμ˜ μ•ˆμ „ν•œ AI κ°œλ°œμ„ μœ„ν•œ μƒˆλ‘œμš΄ 연ꡬ λ°©ν–₯이 λͺ¨μƒ‰λ˜μ–΄μ•Ό ν•  κ²ƒμž…λ‹ˆλ‹€.


*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition

Published: Β (Updated: )

Author: Dasol Choi, Seunghyun Lee, Youngsook Song

http://arxiv.org/abs/2505.15367v1