거대 언어 모델의 사후 훈련: 지식, 진실성, 거부, 신뢰도에 대한 기계적 관점
본 연구는 거대 언어 모델(LLM)의 사후 훈련 과정에서 모델 내부적으로 지식, 진실성, 거부, 신뢰도가 어떻게 변화하는지에 대한 메커니즘을 규명하였습니다. 특히, 사후 훈련이 기존 지식 표현을 바탕으로 새로운 지식 표현을 개발하고, 진실성은 유지하는 반면 거부 반응은 변화하며, 신뢰도는 엔트로피 뉴런과 무관함을 밝힘으로써 LLM 연구에 중요한 시사점을 제공합니다.

거대 언어 모델(LLM)의 사후 훈련: 내부 메커니즘의 비밀이 밝혀지다!
최근 홍저 두(Hongzhe Du)를 비롯한 8명의 연구진이 발표한 논문은 거대 언어 모델(LLM)의 사후 훈련이 모델 내부를 어떻게 변화시키는지에 대한 흥미로운 통찰을 제공합니다. 기존 연구들이 주로 사후 훈련 알고리즘과 출력 결과에 집중했다면, 이 연구는 모델의 내부 메커니즘에 초점을 맞춰 사후 훈련의 영향을 네 가지 측면(지식, 진실성, 거부, 신뢰도)에서 분석했습니다.
1. 지식의 재구성: 연구 결과에 따르면, 사후 훈련은 기존 지식 저장 위치를 변경하지 않고, 기존 지식 표현을 바탕으로 새로운 지식 표현을 개발하는 방식으로 진행됩니다. 마치 건물을 개축하듯, 기존 골조는 유지하면서 새로운 공간을 추가하고 개선하는 것과 같습니다. 이는 LLM의 지식 학습 과정에 대한 깊이 있는 이해를 제공합니다.
2. 진실성과 거부의 벡터 표현: 놀랍게도, 진실성과 거부는 모델의 숨겨진 표현 공간에서 선형 벡터로 표현될 수 있습니다. 특히 진실성 벡터는 사후 훈련 전후로 매우 유사하여, 사후 훈련 과정에서도 진실성을 유지하는 메커니즘이 효과적으로 전달됨을 시사합니다. 반면, 거부 벡터는 사후 훈련 전후로 차이를 보이며, 이는 사후 훈련을 통해 거부 반응이 변화될 수 있음을 의미하지만, 전이 학습에는 제한적임을 나타냅니다.
3. 신뢰도의 새로운 해석: 기존에는 신뢰도가 엔트로피 뉴런에 의해 결정된다는 가설이 있었지만, 이 연구는 이를 반박합니다. 사후 훈련 전후의 신뢰도 차이는 엔트로피 뉴런과는 무관하다는 사실을 밝혀냄으로써, 신뢰도 메커니즘에 대한 기존 이해를 수정할 필요성을 제기합니다.
결론적으로, 이 연구는 LLM 사후 훈련의 기본적인 메커니즘을 이해하는 데 중요한 기여를 합니다. 모델 조정과 같은 후속 작업에 도움을 줄 뿐만 아니라, 해석 가능성 및 LLM 사후 훈련에 대한 미래 연구에도 긍정적인 영향을 미칠 것으로 기대됩니다. 이 연구는 단순한 기술적 발전을 넘어, LLM의 작동 원리를 밝히는 중요한 이정표가 될 것입니다. 향후 연구를 통해 LLM의 내부 작동 원리에 대한 더욱 심층적인 이해가 가능해질 것으로 예상됩니다.
Reference
[arxiv] How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
Published: (Updated: )
Author: Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang
http://arxiv.org/abs/2504.02904v1