혁신적인 생성 추천 모델 MTGRec 등장: 다중 식별자 항목 토큰화의 힘


본 기사는 다중 식별자 항목 토큰화를 활용한 혁신적인 생성 추천 모델 MTGRec에 대해 소개합니다. MTGRec은 저빈도 아이템의 의미 모델링 개선 및 토큰 시퀀스 데이터 다양성 증대를 통해 기존 추천 모델의 한계를 극복하고, 효과성과 확장성을 모두 향상시켰습니다.

related iamge

온라인 추천 시스템의 핵심은 사용자에게 적합한 아이템을 효과적으로 제시하는 것입니다. 최근 생성 모델을 활용한 추천 시스템이 주목받고 있지만, 기존 방법들은 각 아이템을 단일 식별자로 표현하는 한계를 가지고 있었습니다. 이는 저빈도 아이템의 의미 모델링 저하 및 토큰 시퀀스 데이터의 다양성 부족으로 이어져 추천 성능에 제약을 가져왔습니다.

Zheng Bowen 등 연구진이 발표한 논문 “Pre-training Generative Recommender with Multi-Identifier Item Tokenization”은 이러한 문제를 해결하기 위해 혁신적인 MTGRec 모델을 제안합니다. MTGRec은 다중 식별자 항목 토큰화(Multi-identifier item Tokenization) 라는 새로운 접근 방식을 통해 기존의 한계를 극복합니다.

MTGRec의 핵심 혁신: 다중 식별자와 커리큘럼 학습

MTGRec의 핵심은 두 가지 혁신적인 기술에 있습니다.

  1. 다중 식별자 항목 토큰화: RQ-VAE를 토큰 생성기로 활용하여 각 아이템을 여러 개의 식별자로 표현합니다. 인접한 학습 epoch의 모델 체크포인트를 의미적으로 관련된 토큰 생성기로 활용하여 다양한 토큰 시퀀스를 생성, 단일 사용자 상호작용 시퀀스를 여러 토큰 시퀀스로 변환하여 데이터 다양성을 확보합니다. 이는 저빈도 아이템의 의미 모델링을 개선하고, 추천의 정확성과 다양성을 높이는 데 기여합니다.

  2. 커리큘럼 추천 사전 학습: 데이터 영향력 추정 기반의 커리큘럼 학습 방식을 도입하여, 사전 학습 과정에서 각 데이터 그룹의 샘플링 확률을 동적으로 조절합니다. 이를 통해 모델의 학습 효율성을 높이고 과적합을 방지합니다. 사전 학습 후에는 단일 토큰 생성기를 사용하여 미세 조정을 수행하여 정확한 아이템 식별을 보장합니다.

놀라운 성능 향상과 확장성

세 개의 공개 벤치마크 데이터셋을 사용한 실험 결과, MTGRec은 기존의 전통적인 추천 방식 및 다른 생성형 추천 모델들을 효과성 및 확장성 측면에서 모두 능가하는 놀라운 성능을 보였습니다. 이는 다중 식별자 항목 토큰화와 커리큘럼 학습이 추천 시스템의 성능 향상에 크게 기여함을 보여주는 결과입니다.

미래 전망

MTGRec의 등장은 생성형 추천 시스템 분야에 새로운 가능성을 제시합니다. 다중 식별자 항목 토큰화와 커리큘럼 학습은 향후 더욱 발전된 추천 시스템 개발에 중요한 토대가 될 것으로 예상됩니다. 특히, 저빈도 아이템에 대한 추천 정확도 향상 및 사용자에게 더욱 다양하고 만족스러운 추천 경험을 제공하는 데 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Pre-training Generative Recommender with Multi-Identifier Item Tokenization

Published:  (Updated: )

Author: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen

http://arxiv.org/abs/2504.04400v1