π¨ LLMs, μν μΆμ² λ°μ΄ν° μκΈ°νμκΉμ? π¬ MovieLens-1Mμ μ€μ¬μΌλ‘ ν λλΌμ΄ μ°κ΅¬ κ²°κ³Ό!
μ΄ν리μ μμν μ°κ΅¬μμ μ°κ΅¬μ§μ LLMμ΄ MovieLens-1M λ°μ΄ν°μ μ μκΈ°νλ νμμ λ°νλμ΅λλ€. λͺ¨λΈ ν¬κΈ°μ μ’ λ₯μ λ°λΌ μκΈ° μ λκ° λ€λ₯΄λ©°, μ΄λ μΆμ² μ±λ₯μ μν₯μ λ―ΈμΉ©λλ€. LLM κΈ°λ° μΆμ² μμ€ν κ°λ° μ μκΈ° λ¬Έμ μ μΌλ°ν μ±λ₯ ν₯μμ λν κ³ λ €κ° νμν©λλ€.

LLMμ΄ μν μΆμ² λ°μ΄ν°λ₯Ό μκΈ°νλ€?! π€
μ΅κ·Ό λͺ λ κ°, λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ μμ°μ΄ μ΄ν΄ λ° μμ± λ₯λ ₯μ λ°νμΌλ‘ μΆμ² μμ€ν λΆμΌμμ μ£Όλͺ©λ°κ³ μμ΅λλ€. νμ§λ§, μ°κ΅¬μλ€μ ν κ°μ§ μ€μν μλ¬Έμ μ κ°κ² λμμ΅λλ€. λ°λ‘ LLMμ΄ νλ ¨ λ°μ΄ν°λ‘ μ¬μ©λ κ³΅κ° μΆμ² λ°μ΄ν°μ μ μκΈ°νλμ§ μ¬λΆμ λλ€. μ΄λ μ°κ΅¬ κ²°κ³Όμ μΌλ°ν κ°λ₯μ±μ λ¨μ΄λ¨λ¦¬κ³ , νΈν₯μ μ¦νμν¬ μ μκΈ° λλ¬Έμ λλ€.
μ΄ν리μ μμν μ°κ΅¬μ(SISINF Lab)μ Dario Di Palma λ± 6λͺ μ μ°κ΅¬μλ€μ μ΄ λ¬Έμ μ λν ν₯λ―Έλ‘μ΄ μ°κ΅¬ κ²°κ³Όλ₯Ό λ°ννμ΅λλ€. κ·Έλ€μ "Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M" μ΄λΌλ λ Όλ¬Έμ ν΅ν΄ GPTμ Llama κ³μ΄μ λ€μν ν¬κΈ°μ LLMμ΄ μΌλ§λ MovieLens-1M λ°μ΄ν°μ μ μκΈ°νλμ§ λΆμνμ΅λλ€. MovieLens-1Mμ μΆμ² μμ€ν λΆμΌμμ κ°μ₯ λ리 μ¬μ©λλ λ°μ΄ν°μ μ€ νλμ λλ€.
μ°κ΅¬ λ°©λ²: μκΈ° μ λ μΈ‘μ λ° μΆμ² μ±λ₯ λΆμ
μ°κ΅¬μ§μ LLMμ΄ μμ΄ν μμ±, μ¬μ©μ νλ‘ν, μ¬μ©μ-μμ΄ν μνΈμμ©μ μΌλ§λ μ ννκ² κ²μνλμ§ μΈ‘μ νμ¬ μκΈ° μ λλ₯Ό νκ°νμ΅λλ€. λν, μκΈ° μ λκ° μΆμ² μ±λ₯μ λ―ΈμΉλ μν₯κ³Ό λͺ¨λΈ ν¬κΈ° λ° μ’ λ₯μ λ°λ₯Έ μκΈ° μ λμ μ°¨μ΄λ₯Ό λΆμνμ΅λλ€.
λλΌμ΄ κ²°κ³Ό: λͺ¨λ λͺ¨λΈμμ μκΈ° νμ λ°κ²¬!
κ²°κ³Όλ λλΌμ μ΅λλ€. λͺ¨λ λͺ¨λΈμμ MovieLens-1M λ°μ΄ν°μ μ μΌμ λΆλΆμ μκΈ°νκ³ μμκ³ , μΆμ² μ±λ₯μ μκΈ° μ λμ λ°μ ν κ΄λ ¨μ΄ μμμ΅λλ€. μ¦, λ°μ΄ν°λ₯Ό λ§μ΄ μκΈ°ν μλ‘ μΆμ² μ±λ₯μ΄ λμμ§λ κ²½ν₯μ 보μμ΅λλ€. νμ§λ§, μ΄λ μ€μ μΌλ°νλ μ±λ₯μ 보μ₯νμ§ μλλ€λ μ μ κ°μ‘°νμ΅λλ€. λ λμκ°, μ°κ΅¬μ§μ λͺ¨λΈμ ν¬κΈ°μ μ’ λ₯μ λ°λΌ μκΈ° μ λκ° λ€λ₯΄λ€λ κ²μ νμΈνμ΅λλ€.
μ°κ΅¬μ μλ―Έμ μμ¬μ
μ΄ μ°κ΅¬λ LLMμ μΆμ² μμ€ν μ μ μ©ν λ νλ ¨ λ°μ΄ν° μκΈ° λ¬Έμ λ₯Ό κ³ λ €ν΄μΌ ν¨μ μμ¬ν©λλ€. λ¨μν λ²€μΉλ§νΉ κ²°κ³Όλ§μΌλ‘ μ±λ₯μ νκ°ν΄μλ μλλ©°, μΌλ°ν κ°λ₯μ±κ³Ό νΈν₯ λ¬Έμ λ₯Ό κΌΌκΌΌν κ²ν ν΄μΌ ν©λλ€. μ°κ΅¬μ§μ GitHub (https://github.com/sisinflab/LLM-MemoryInspector)μ μ½λλ₯Ό 곡κ°νμ¬, λ€λ₯Έ μ°κ΅¬μλ€μ΄ μ΄ μ°κ΅¬λ₯Ό μ¬ννκ³ λ°μ μν¬ μ μλλ‘ νμ΅λλ€.
μ΄ μ°κ΅¬λ LLMμ μ μ¬λ ₯κ³Ό λμμ κ·Έ νκ³λ₯Ό λͺ νν 보μ¬μ£Όλ μ€μν μ¬λ‘μ λλ€. μμΌλ‘ LLM κΈ°λ° μΆμ² μμ€ν μ λ°μ μ μν΄μλ μκΈ° λ¬Έμ ν΄κ²° λ° μΌλ°ν μ±λ₯ ν₯μμ λν μ§μμ μΈ μ°κ΅¬κ° νμν©λλ€.
Reference
[arxiv] Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M
Published: Β (Updated: )
Author: Dario Di Palma, Felice Antonio Merra, Maurizio Sfilio, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia
http://arxiv.org/abs/2505.10212v1