Endo3R: 단일 내시경 비디오로부터의 실시간 3D 재구성의 혁신


Endo3R은 사전 정보 없이 단일 내시경 비디오로부터 실시간 3D 재구성을 가능하게 하는 혁신적인 모델입니다. 불확실성 인식 이중 메모리 메커니즘과 자기 지도 학습 메커니즘을 통해 동적이고 텍스처가 부족한 내시경 영상의 특징을 효과적으로 처리하며, 뛰어난 성능을 보여줍니다.

related iamge

단일 내시경 비디오를 활용한 혁신적인 3D 재구성: Endo3R 소개

최근 수술 현장에서 컴퓨터 지원 수술의 중요성이 날로 높아지고 있습니다. 이러한 흐름 속에서 단일 내시경 비디오로부터 3D 장면을 정확하게 재구성하는 기술은 외과의의 시야 확보 및 수술의 정확성 향상에 매우 중요한 역할을 수행합니다. 하지만, 동적인 변형과 텍스처가 부족한 내시경 영상의 특성으로 인해 정확한 스케일을 유지하는 3D 재구성은 여전히 큰 과제였습니다.

기존의 방법들은 보정이나 기구 정보에 의존하거나 여러 단계의 프로세스를 거치는 경우가 많았습니다. 이는 오차 누적 및 오프라인 최적화 필요성으로 이어져 실시간 처리에 어려움을 야기했습니다.

하지만 이제, Endo3R 이 등장했습니다! Guo Jiaxin 등 연구진이 개발한 Endo3R은 사전 정보나 추가적인 최적화 과정 없이 단일 내시경 비디오로부터 실시간으로 정확한 스케일을 유지하는 3D 재구성을 가능하게 하는 획기적인 모델입니다.

Endo3R의 핵심은 불확실성 인식 이중 메모리 메커니즘입니다. 이 메커니즘은 단기 동적 변화와 장기적 공간적 일관성을 모두 유지하는 역할을 합니다. 특히, 수술 장면의 역동적인 특성을 고려하여 Sampson 거리를 이용해 토큰의 불확실성을 측정하고, 불확실성이 높은 토큰을 걸러냅니다. 또한, 동적 흐름 손실(dynamics-aware flow loss) 을 기반으로 한 자기 지도 학습 메커니즘을 도입하여 부족한 내시경 데이터셋의 한계를 극복했습니다.

SCARED와 Hamlyn 데이터셋에서의 실험 결과는 Endo3R이 기존 기술보다 뛰어난 성능을 보임을 입증했습니다. 실시간으로 정확한 수술 영상 심도 예측과 카메라 자세 추정이 가능하다는 것은 컴퓨터 지원 수술의 새로운 지평을 여는 쾌거입니다. Endo3R 프로젝트 페이지 (https://wrld.github.io/Endo3R/) 에서 더 자세한 내용을 확인할 수 있습니다.

결론적으로 Endo3R은 단일 내시경 비디오 기반의 실시간 3D 재구성 기술에 있어 획기적인 발전을 이룬 연구 성과이며, 향후 컴퓨터 지원 수술 분야의 혁신을 이끌 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video

Published:  (Updated: )

Author: Jiaxin Guo, Wenzhen Dong, Tianyu Huang, Hao Ding, Ziyi Wang, Haomin Kuang, Qi Dou, Yun-Hui Liu

http://arxiv.org/abs/2504.03198v1