🀯 LLM μ–ΈλŸ¬λ‹μ˜ λ†€λΌμš΄ 발견: 5%의 μ½”μ–΄μ…‹μœΌλ‘œ μΆ©λΆ„ν•˜λ‹€?!


LLM μ–ΈλŸ¬λ‹ μ—°κ΅¬μ—μ„œ 전체 λ°μ΄ν„°μ…‹μ˜ 5%에 λΆˆκ³Όν•œ μ½”μ–΄μ…‹λ§ŒμœΌλ‘œλ„ 효과적인 μ–ΈλŸ¬λ‹μ΄ κ°€λŠ₯ν•˜λ‹€λŠ” λ†€λΌμš΄ 'μ½”μ–΄μ…‹ 효과'κ°€ λ°œκ²¬λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ‹€μ–‘ν•œ μ–ΈλŸ¬λ‹ 방법과 데이터 선택 방법에 걸쳐 κ°•λ ₯ν•˜κ²Œ μœ μ§€λ˜λ©°, ν‚€μ›Œλ“œ 기반 뢄석을 톡해 고영ν–₯λ ₯ ν† ν°μ˜ μ€‘μš”μ„±μ΄ ν™•μΈλ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ°œκ²¬μ€ LLM μ–ΈλŸ¬λ‹μ˜ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚€κ³  μ‹€μš©μ μΈ ν™œμš©μ— κΈ°μ—¬ν•  κ²ƒμœΌλ‘œ μ˜ˆμƒλ©λ‹ˆλ‹€.

related iamge

5%의 λ§ˆλ²•: LLM μ–ΈλŸ¬λ‹μ˜ μ½”μ–΄μ…‹ 효과

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „μ„±κ³Ό μ œμ–΄λœ λ™μž‘μ„ μœ„ν•΄μ„œλŠ” μ›μΉ˜ μ•ŠλŠ” λ°μ΄ν„°μ˜ 영ν–₯을 μ œκ±°ν•˜λŠ” 'μ–ΈλŸ¬λ‹'이 ν•„μˆ˜μ μž…λ‹ˆλ‹€. 졜근 WMDP, MUSE λ“±μ˜ LLM μ–ΈλŸ¬λ‹ λ²€μΉ˜λ§ˆν¬κ°€ κ°œλ°œλ˜μ—ˆμ§€λ§Œ, Soumyadeep Pal λ“± 연ꡬ진은 μ΄λŸ¬ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ λ†€λΌμš΄ ν˜„μƒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. λ°”λ‘œ **'μ½”μ–΄μ…‹ 효과'**μž…λ‹ˆλ‹€.

이 μ—°κ΅¬λŠ” 기쑴의 전체 μžŠμ–΄λ²„λ¦΄ 데이터셋(forget set)을 μ‚¬μš©ν•˜λŠ” λŒ€μ‹ , 겨우 5% μ •λ„μ˜ μž‘μ€ μ½”μ–΄μ…‹λ§ŒμœΌλ‘œλ„ 효과적인 μ–ΈλŸ¬λ‹μ΄ κ°€λŠ₯함을 λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€. λ¬΄μž‘μœ„λ‘œ μ„ νƒλœ 코어셋쑰차도 κ°•λ ₯ν•œ μ–ΈλŸ¬λ‹ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. μ΄λŠ” NPO, RMU와 같은 λ‹€μ–‘ν•œ μ–ΈλŸ¬λ‹ 방법에도 μ μš©λ˜λŠ” κ²°κ³Όμž…λ‹ˆλ‹€.

연ꡬ진은 μ΄λŸ¬ν•œ μ½”μ–΄μ…‹ 효과λ₯Ό ν‚€μ›Œλ“œ 기반 κ΄€μ μ—μ„œ μ„€λͺ…ν•©λ‹ˆλ‹€. μžŠμ–΄λ²„λ¦΄ λ°μ΄ν„°μ…‹μ—μ„œ μΆ”μΆœλœ ν‚€μ›Œλ“œλ§ŒμœΌλ‘œλ„ μ–ΈλŸ¬λ‹ νš¨κ³Όμ— μƒλ‹Ήν•œ κΈ°μ—¬λ₯Ό ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. 즉, 전체 데이터셋이 μ•„λ‹Œ, 고영ν–₯λ ₯ ν† ν°μ˜ μž‘μ€ 집합이 μ–ΈλŸ¬λ‹μ„ μ£Όλ„ν•œλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€. λ˜ν•œ, μ½”μ–΄μ…‹ 기반 μ–ΈλŸ¬λ‹ λͺ¨λΈμ˜ 신뒰성을 λͺ¨λ“œ μ—°κ²°μ„± 및 νƒˆμ˜₯ 곡격에 λŒ€ν•œ 강건성 μΈ‘λ©΄μ—μ„œ μΆ”κ°€μ μœΌλ‘œ κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

μ΄λŠ” LLM μ–ΈλŸ¬λ‹μ˜ νš¨μœ¨μ„±μ„ 획기적으둜 높일 수 μžˆλŠ” μ€‘μš”ν•œ λ°œκ²¬μž…λ‹ˆλ‹€. 5%의 μ½”μ–΄μ…‹μœΌλ‘œλ„ μΆ©λΆ„ν•œ μ–ΈλŸ¬λ‹μ΄ κ°€λŠ₯ν•˜λ‹€λŠ” 것은 μ»΄ν“¨νŒ… μžμ›κ³Ό μ‹œκ°„μ„ 획기적으둜 μ ˆμ•½ν•  수 μžˆλ‹€λŠ” 것을 μ˜λ―Έν•˜λ©°, LLM의 μ‹€μš©μ μΈ ν™œμš©μ— 큰 영ν–₯을 λ―ΈμΉ  κ²ƒμž…λ‹ˆλ‹€.

더 μžμ„Έν•œ λ‚΄μš©μ€ GitHub μ—μ„œ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

핡심 λ‚΄μš©:

  • LLM μ–ΈλŸ¬λ‹μ—μ„œ λ†€λΌμš΄ μ½”μ–΄μ…‹ 효과 발견 (전체 forget set의 5%λ§ŒμœΌλ‘œλ„ μΆ©λΆ„)
  • λ‹€μ–‘ν•œ μ–ΈλŸ¬λ‹ 방법 및 데이터 선택 방법에 λŒ€ν•΄μ„œλ„ κ°•λ ₯ν•œ 효과 μœ μ§€
  • ν‚€μ›Œλ“œ 기반 뢄석을 톡해 고영ν–₯λ ₯ ν† ν°μ˜ μ€‘μš”μ„± 확인
  • μ½”μ–΄μ…‹ 기반 μ–ΈλŸ¬λ‹ λͺ¨λΈμ˜ μ‹ λ’°μ„± 검증 μ™„λ£Œ

*이 κΈ°μ‚¬λŠ” AIκ°€ μƒμ„±ν•œ λ‚΄μš©μœΌλ‘œ, 일뢀 정보가 μ‹€μ œμ™€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ •ν™•ν•œ 확인을 μœ„ν•΄ 좔가적인 검증을 ꢌμž₯λ“œλ¦½λ‹ˆλ‹€.

Reference

[arxiv] LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks

Published: Β (Updated: )

Author: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu

http://arxiv.org/abs/2504.10185v1