시간 시계열 예측의 혁신: 1억 5천만 매개변수의 Toto 모델 등장!


Datadog 연구팀이 개발한 1억 5천만 매개변수의 시간 시계열 예측 기반 모델 Toto와 실제 관측 데이터 기반의 대규모 벤치마크 BOOM이 공개되었습니다. Toto는 기존 모델 대비 뛰어난 성능을 보이며, 오픈소스로 공개되어 시간 시계열 분석 분야의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

시간 시계열 예측의 새로운 지평을 연 Toto 모델

최근, Datadog 연구팀이 발표한 새로운 시간 시계열 예측 기반 모델 Toto가 AI 업계에 큰 반향을 일으키고 있습니다. 무려 1억 5천만 개의 매개변수를 자랑하는 Toto는 현대적인 디코더 전용 아키텍처를 사용하며, 다변량 관측 가능성 시간 시계열 데이터의 특징적인 어려움을 해결하기 위한 혁신적인 구조를 채택했습니다.

기존 모델들과의 가장 큰 차이점은 바로 데이터의 규모입니다. Toto의 사전 훈련 데이터는 관측 가능성 데이터, 공개 데이터셋, 그리고 합성 데이터를 혼합하여 구성되었는데, 그 규모는 기존 최고 수준의 시간 시계열 기반 모델들보다 4~10배 더 큽니다. 이러한 대규모 데이터셋을 통해 Toto는 놀라운 성능 향상을 달성했습니다.

더욱 흥미로운 점은, Toto의 성능을 평가하기 위해 BOOM이라는 대규모 벤치마크가 함께 개발되었다는 점입니다. BOOM은 2,807개의 실제 세계 시간 시계열에 걸쳐 3억 5천만 개의 관측치로 구성되어 있으며, 데이터는 Datadog의 자체 원격 측정 및 내부 관측 가능성 지표에서 독점적으로 가져왔습니다. 이를 통해 Toto의 성능 평가는 더욱 신뢰성을 확보하게 되었습니다.

실제로, 광범위한 평가 결과 Toto는 BOOM과 기존의 일반적인 시간 시계열 예측 벤치마크 모두에서 최첨단 성능을 달성했습니다. 뿐만 아니라, Toto의 모델 가중치, 추론 코드, 평가 스크립트, 그리고 BOOM의 데이터와 평가 코드는 모두 Apache 2.0 라이선스에 따라 오픈소스로 공개되어 (https://huggingface.co/Datadog/Toto-Open-Base-1.0https://github.com/DataDog/toto), 연구자와 개발자들에게 폭넓은 활용의 기회를 제공합니다.

Toto의 등장은 단순한 기술적 발전을 넘어, 시간 시계열 분석 분야의 패러다임 변화를 예고하는 중요한 사건입니다. 대규모 데이터와 혁신적인 아키텍처를 바탕으로 한 Toto는 앞으로 다양한 분야에서 시간 시계열 예측의 정확도와 효율성을 높이는 데 크게 기여할 것으로 기대됩니다. 또한, BOOM 벤치마크의 공개는 보다 객관적이고 정확한 모델 비교를 가능하게 하여, 시간 시계열 분석 기술의 발전을 더욱 가속화할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] This Time is Different: An Observability Perspective on Time Series Foundation Models

Published:  (Updated: )

Author: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal

http://arxiv.org/abs/2505.14766v1