새로운 데이터가 LLM 지식에 스며드는 방식과 그 완화 방법


거대 언어 모델(LLM)의 새로운 정보 학습 과정에서 발생하는 '프라이밍 효과'를 규명하고, 이를 완화하기 위한 두 가지 새로운 기술을 제시한 연구 결과가 발표되었습니다. 이 연구는 LLM의 학습 메커니즘에 대한 이해를 높이고, 더욱 안전하고 신뢰할 수 있는 LLM 개발에 기여할 것으로 기대됩니다.

related iamge

최근 Chen Sun 등 연구진이 발표한 논문 "How new data permeates LLM knowledge and how to dilute it"는 거대 언어 모델(LLM)의 학습 과정에서 발생하는 흥미로운 현상을 밝혀냈습니다. LLM은 기울기 기반 업데이트를 통해 지속적으로 학습하지만, 새로운 정보가 기존 지식에 어떻게 영향을 미치는지, 그리고 이것이 유익한 일반화를 이끄는지, 혹은 문제가 되는 환각(hallucination)을 유발하는지에 대한 이해는 부족했습니다.

연구진은 LLM이 새로운 정보를 학습할 때 **'프라이밍 효과'**를 보인다는 것을 발견했습니다. 이는 새로운 사실을 학습하면 모델이 관련 없는 맥락에서도 그 지식을 부적절하게 적용하는 현상을 의미합니다. 이를 체계적으로 연구하기 위해 연구진은 1320개의 다양한 텍스트 샘플로 구성된 'Outlandish' 데이터 세트를 만들었습니다. 이 데이터 세트를 사용하여 새로운 정보 학습 후 프라이밍 정도를 학습 전 주요 단어의 토큰 확률로 예측할 수 있음을 보였습니다. 놀랍게도 이러한 관계는 PALM-2, Gemma, Llama와 같이 서로 다른 모델 아키텍처, 크기, 학습 단계에서도 강력하게 유지되었습니다.

하지만 이러한 프라이밍 효과는 LLM의 성능을 저해할 수 있습니다. 연구진은 이 문제를 해결하기 위해 두 가지 혁신적인 기술을 개발했습니다. 첫 번째는 'stepping-stone' 텍스트 증강 전략이고, 두 번째는 'ignore-k' 업데이트 가지치기 방법입니다. 이러한 접근 방식은 원치 않는 프라이밍 효과를 50~95%까지 줄이면서 모델의 새로운 정보 학습 능력은 유지하는 놀라운 성과를 보였습니다.

이 연구는 LLM이 학습하는 방식에 대한 실증적인 통찰력을 제공할 뿐만 아니라 언어 모델에서 지식 삽입의 특이성을 향상시키는 실용적인 도구를 제공합니다. 이는 LLM의 발전과 안전한 사용을 위한 중요한 진전으로 평가되며, 앞으로 LLM의 신뢰성 향상에 크게 기여할 것으로 기대됩니다. 자세한 내용은 https://sunchipsster1.github.io/projects/outlandish/ 에서 확인할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] How new data permeates LLM knowledge and how to dilute it

Published:  (Updated: )

Author: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler

http://arxiv.org/abs/2504.09522v1