딥러닝 기반 비디오 압축의 혁명: 2D 가우시안 스플래팅 기술
Lakshya Gupta와 Imran N. Junejo가 개발한 2D 가우시안 스플래팅 기반 신경망 비디오 압축 기술은 기존 코덱의 한계를 뛰어넘는 실시간 고효율 압축을 가능하게 합니다. 이는 화상 회의 및 스트리밍 서비스 등 다양한 분야에 혁신을 가져올 것으로 예상됩니다.

지난 수십 년간, AVC, HEVC, VVC, AV1, AV2 등의 표준을 통해 비디오 데이터 통신 표준화가 이루어져 왔습니다. 하지만 최근 획기적인 연구는 기존 비디오 코덱 파이프라인을 대체할 딥러닝 기반 기술에 주목하고 있습니다. Lakshya Gupta와 Imran N. Junejo가 발표한 논문, "Neural Video Compression using 2D Gaussian Splatting"은 바로 이러한 흐름의 최전선에 있습니다.
이 논문에서 제시하는 신경망 비디오 코덱(NVC)은 기존의 수작업 기반 특징(움직임이나 에지 기반)에 의존하지 않고, 콘텐츠에 맞는 압축 전략을 학습하는 엔드투엔드 머신러닝 기반 솔루션입니다. 이는 기존 방식보다 더 나은 적응성과 높은 압축 효율을 제공합니다. 특히 MS 팀즈나 Zoom과 같은 화상 회의 애플리케이션에서 그 중요성이 더욱 커지고 있는 현시대에, 이 기술은 교육 현장과 직장에서 폭넓게 활용될 가능성을 제시합니다.
하지만 높은 연산량이 실시간 응용 분야에 적용하는 데 걸림돌이었습니다. 연구팀은 이 문제를 해결하기 위해 관심 영역(ROI) 기반 신경망 비디오 압축 모델을 제안했는데, 여기서 핵심이 되는 기술이 바로 2D 가우시안 스플래팅입니다.
2D 가우시안 스플래팅은 기존 코덱과 달리 실시간 디코딩이 가능하고, 적은 데이터 포인트로 최적화할 수 있습니다. 3D 장면에서 수백만 개의 가우시안이 필요한 것과 달리, 고품질 출력을 위해 단 수천 개의 가우시안만으로 충분합니다.
연구팀은 콘텐츠 인식 초기화 전략과 새로운 가우시안 프레임 간 중복 감소 메커니즘을 결합하여 기존 가우시안 스플래팅 기반 이미지 코덱의 인코딩 시간을 88% 단축하는 비디오 파이프라인을 설계했습니다. 이는 신경망 비디오 코덱 분야에서 최초의 가우시안 스플래팅 기반 솔루션으로, 실시간 비디오 압축 기술의 새로운 지평을 열 것으로 기대됩니다. 이는 단순한 기술적 발전을 넘어, 화상회의, 스트리밍 서비스 등 다양한 분야에 혁신적인 변화를 가져올 잠재력을 지니고 있습니다. 앞으로 이 기술의 발전과 상용화에 주목할 필요가 있습니다.
Reference
[arxiv] Neural Video Compression using 2D Gaussian Splatting
Published: (Updated: )
Author: Lakshya Gupta, Imran N. Junejo
http://arxiv.org/abs/2505.09324v1