EPFL-Smart-Kitchen-30: 요리하는 인간 행동의 비밀을 풀다
EPFL-Smart-Kitchen-30 데이터셋은 다양한 센서를 활용하여 16명의 참가자의 29.7시간 분량의 요리 과정을 밀도 있게 기록한 대규모 데이터셋입니다. 이 데이터셋을 기반으로 제시된 4가지 벤치마크는 AI 모델의 발전과 인간 행동 이해 연구에 중요한 기여를 할 것으로 기대됩니다.

스위스 로잔 연방 공과대학교(EPFL) 연구팀이 발표한 EPFL-Smart-Kitchen-30 데이터셋은 인공지능(AI) 분야, 특히 비전 및 언어 모델 연구에 혁신적인 전환점을 제시합니다. 이 데이터셋은 단순한 요리 과정을 넘어, 인간의 복잡한 행동을 심층적으로 이해하는 데 초점을 맞추고 있습니다. 왜 주방일까요? 주방은 다양한 동작들이 자연스럽게 나타나는 공간이기 때문입니다. 채소를 썰고, 재료를 섞고, 설거지를 하는 등의 행위는 인지 및 운동 능력을 종합적으로 평가하는 데 이상적인 척도가 됩니다.
16명의 참가자, 29.7시간의 요리, 그리고 엄청난 데이터: 연구팀은 9대의 정지 RGB-D 카메라, 관성 측정 장치(IMU), 그리고 HoloLens 2 헤드셋을 사용하여 16명의 참가자가 네 가지 다른 요리 레시피를 조리하는 29.7시간 분량의 데이터를 수집했습니다. 여기에는 3D 손, 신체, 그리고 시선 움직임이 포함되어 있으며, 분당 33.78개의 행동 세그먼트로 밀도 있게 주석 처리되었습니다. 이는 기존 데이터셋에서는 찾아볼 수 없는 수준의 정밀함을 자랑합니다.
4가지 벤치마크로 AI의 한계를 뛰어넘다: 단순히 데이터를 수집하는 데 그치지 않고, 연구팀은 이 데이터를 활용하여 네 가지 벤치마크를 제시했습니다. 이는 AI 모델의 성능을 평가하고, 향후 연구 방향을 제시하는 중요한 기준이 될 것입니다.
- 비전-언어 벤치마크: 이미지와 텍스트 정보를 결합하여 행동을 이해하는 모델의 성능 평가
- 텍스트-모션 생성 벤치마크: 텍스트 설명을 기반으로 실제와 유사한 동작을 생성하는 모델의 성능 평가
- 멀티모달 행동 인식 벤치마크: 다양한 모달리티(시각, 움직임, 시선 등)의 정보를 통합하여 행동을 인식하는 모델의 성능 평가
- 자세 기반 행동 분할 벤치마크: 신체 자세 정보를 이용하여 행동을 세분화하는 모델의 성능 평가
미래를 향한 도약: EPFL-Smart-Kitchen-30 데이터셋은 단순한 데이터셋을 넘어, 인간 행동 이해에 대한 새로운 패러다임을 제시합니다. 이는 AI 모델의 발전에 큰 영향을 미칠 뿐만 아니라, 인간의 행동을 더욱 정확하게 이해하고, 더 나아가 인간-컴퓨터 상호작용(HCI) 분야에도 혁신적인 변화를 가져올 것으로 예상됩니다. Github(https://github.com/amathislab/EPFL-Smart-Kitchen)에서 데이터셋과 코드를 확인할 수 있습니다.
Reference
[arxiv] EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models
Published: (Updated: )
Author: Andy Bonnetto, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis
http://arxiv.org/abs/2506.01608v1