π€― LLM μΈλ¬λμ λλΌμ΄ λ°κ²¬: 5%μ μ½μ΄μ μΌλ‘ μΆ©λΆνλ€?!
LLM μΈλ¬λ μ°κ΅¬μμ μ 체 λ°μ΄ν°μ μ 5%μ λΆκ³Όν μ½μ΄μ λ§μΌλ‘λ ν¨κ³Όμ μΈ μΈλ¬λμ΄ κ°λ₯νλ€λ λλΌμ΄ 'μ½μ΄μ ν¨κ³Ό'κ° λ°κ²¬λμμ΅λλ€. μ΄λ λ€μν μΈλ¬λ λ°©λ²κ³Ό λ°μ΄ν° μ ν λ°©λ²μ κ±Έμ³ κ°λ ₯νκ² μ μ§λλ©°, ν€μλ κΈ°λ° λΆμμ ν΅ν΄ κ³ μν₯λ ₯ ν ν°μ μ€μμ±μ΄ νμΈλμμ΅λλ€. μ΄λ¬ν λ°κ²¬μ LLM μΈλ¬λμ ν¨μ¨μ±μ ν¬κ² ν₯μμν€κ³ μ€μ©μ μΈ νμ©μ κΈ°μ¬ν κ²μΌλ‘ μμλ©λλ€.

5%μ λ§λ²: LLM μΈλ¬λμ μ½μ΄μ ν¨κ³Ό
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μμ μ±κ³Ό μ μ΄λ λμμ μν΄μλ μμΉ μλ λ°μ΄ν°μ μν₯μ μ κ±°νλ 'μΈλ¬λ'μ΄ νμμ μ λλ€. μ΅κ·Ό WMDP, MUSE λ±μ LLM μΈλ¬λ λ²€μΉλ§ν¬κ° κ°λ°λμμ§λ§, Soumyadeep Pal λ± μ°κ΅¬μ§μ μ΄λ¬ν λ²€μΉλ§ν¬μμ λλΌμ΄ νμμ λ°κ²¬νμ΅λλ€. λ°λ‘ **'μ½μ΄μ ν¨κ³Ό'**μ λλ€.
μ΄ μ°κ΅¬λ κΈ°μ‘΄μ μ 체 μμ΄λ²λ¦΄ λ°μ΄ν°μ (forget set)μ μ¬μ©νλ λμ , κ²¨μ° 5% μ λμ μμ μ½μ΄μ λ§μΌλ‘λ ν¨κ³Όμ μΈ μΈλ¬λμ΄ κ°λ₯ν¨μ λ°νλμ΅λλ€. 무μμλ‘ μ νλ μ½μ΄μ μ‘°μ°¨λ κ°λ ₯ν μΈλ¬λ μ±λ₯μ 보μμ΅λλ€. μ΄λ NPO, RMUμ κ°μ λ€μν μΈλ¬λ λ°©λ²μλ μ μ©λλ κ²°κ³Όμ λλ€.
μ°κ΅¬μ§μ μ΄λ¬ν μ½μ΄μ ν¨κ³Όλ₯Ό ν€μλ κΈ°λ° κ΄μ μμ μ€λͺ ν©λλ€. μμ΄λ²λ¦΄ λ°μ΄ν°μ μμ μΆμΆλ ν€μλλ§μΌλ‘λ μΈλ¬λ ν¨κ³Όμ μλΉν κΈ°μ¬λ₯Ό νλ κ²μΌλ‘ λνλ¬μ΅λλ€. μ¦, μ 체 λ°μ΄ν°μ μ΄ μλ, κ³ μν₯λ ₯ ν ν°μ μμ μ§ν©μ΄ μΈλ¬λμ μ£Όλνλ€λ κ²μ μλ―Έν©λλ€. λν, μ½μ΄μ κΈ°λ° μΈλ¬λ λͺ¨λΈμ μ λ’°μ±μ λͺ¨λ μ°κ²°μ± λ° νμ₯ 곡격μ λν κ°κ±΄μ± μΈ‘λ©΄μμ μΆκ°μ μΌλ‘ κ²μ¦νμ΅λλ€.
μ΄λ LLM μΈλ¬λμ ν¨μ¨μ±μ νκΈ°μ μΌλ‘ λμΌ μ μλ μ€μν λ°κ²¬μ λλ€. 5%μ μ½μ΄μ μΌλ‘λ μΆ©λΆν μΈλ¬λμ΄ κ°λ₯νλ€λ κ²μ μ»΄ν¨ν μμκ³Ό μκ°μ νκΈ°μ μΌλ‘ μ μ½ν μ μλ€λ κ²μ μλ―Ένλ©°, LLMμ μ€μ©μ μΈ νμ©μ ν° μν₯μ λ―ΈμΉ κ²μ λλ€.
λ μμΈν λ΄μ©μ GitHub μμ νμΈν μ μμ΅λλ€.
ν΅μ¬ λ΄μ©:
- LLM μΈλ¬λμμ λλΌμ΄ μ½μ΄μ ν¨κ³Ό λ°κ²¬ (μ 체 forget setμ 5%λ§μΌλ‘λ μΆ©λΆ)
- λ€μν μΈλ¬λ λ°©λ² λ° λ°μ΄ν° μ ν λ°©λ²μ λν΄μλ κ°λ ₯ν ν¨κ³Ό μ μ§
- ν€μλ κΈ°λ° λΆμμ ν΅ν΄ κ³ μν₯λ ₯ ν ν°μ μ€μμ± νμΈ
- μ½μ΄μ κΈ°λ° μΈλ¬λ λͺ¨λΈμ μ λ’°μ± κ²μ¦ μλ£
Reference
[arxiv] LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks
Published: Β (Updated: )
Author: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu
http://arxiv.org/abs/2504.10185v1