혁신적인 생성형 추천 시스템 MTGRec 등장: 다중 식별자 항목 토큰화의 힘
본 기사는 다중 식별자 항목 토큰화를 활용한 혁신적인 생성형 추천 시스템 MTGRec에 대한 최신 연구 결과를 소개합니다. 저빈도 아이템의 의미 모델링 개선 및 데이터 다양성 확보를 통해 기존 시스템의 한계를 극복하고, 효율성과 확장성을 향상시킨 MTGRec은 추천 시스템 분야의 획기적인 발전으로 평가받고 있습니다.

최근 AI 분야에서 생성형 추천 시스템(Generative Recommender)이 큰 주목을 받고 있습니다. 기존의 추천 시스템과 달리, 생성형 추천 시스템은 잠재적인 아이템을 자동으로 생성하여 추천하는 방식을 사용합니다. 하지만 기존의 생성형 추천 시스템들은 각 아이템을 단일 식별자로만 표현하는 한계를 가지고 있었습니다. 이는 저빈도 아이템의 의미 모델링이 부족하고, 토큰 시퀀스 데이터의 다양성이 제한되는 문제를 야기했습니다.
Zheng Bowen 등 연구진이 발표한 논문 "Pre-training Generative Recommender with Multi-Identifier Item Tokenization"은 이러한 한계를 극복하기 위해 MTGRec이라는 혁신적인 시스템을 제시했습니다. MTGRec의 핵심은 바로 다중 식별자 항목 토큰화(Multi-identifier item Tokenization) 입니다.
MTGRec의 두 가지 핵심 혁신:
다중 식별자 항목 토큰화: 연구진은 RQ-VAE를 토크나이저 백본으로 활용하여 인접한 훈련 에포크의 모델 체크포인트를 의미적으로 관련된 토크나이저로 취급합니다. 이를 통해 각 아이템은 여러 식별자와 연결될 수 있으며, 단일 사용자 상호작용 시퀀스가 여러 토큰 시퀀스로 변환되어 데이터 그룹의 다양성을 확보합니다. 이는 저빈도 아이템의 의미 모델링을 개선하고, 추천의 정확도를 높이는 데 기여합니다.
커리큘럼 추천 사전 훈련: 데이터 영향 추정에 의해 안내되는 커리큘럼 학습 방식을 도입하여 추천 사전 훈련 중 각 데이터 그룹의 샘플링 확률을 동적으로 조정합니다. 이를 통해 모델은 더 효율적으로 학습하고, 추천 성능을 향상시킵니다. 사전 훈련 후에는 단일 토크나이저를 사용하여 미세 조정을 수행하여 추천의 정확성을 보장합니다.
놀라운 결과:
세 개의 공개 벤치마크 데이터셋에 대한 광범위한 실험 결과, MTGRec은 기존의 전통적인 추천 시스템과 생성형 추천 시스템을 모두 능가하는 효율성과 확장성을 보여주었습니다. 이는 다중 식별자 항목 토큰화와 커리큘럼 학습 전략의 효과를 명확하게 입증합니다.
결론적으로, MTGRec은 생성형 추천 시스템의 새로운 지평을 열었습니다. 다중 식별자 항목 토큰화와 커리큘럼 학습 전략을 통해 저빈도 아이템 문제를 해결하고, 추천의 다양성과 정확성을 향상시켰습니다. 이 연구는 추천 시스템 분야의 발전에 크게 기여할 것으로 기대됩니다. 향후 연구에서는 MTGRec의 실제 서비스 적용 및 다양한 응용 분야에 대한 연구가 더욱 필요할 것으로 보입니다.
Reference
[arxiv] Pre-training Generative Recommender with Multi-Identifier Item Tokenization
Published: (Updated: )
Author: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen
http://arxiv.org/abs/2504.04400v2