숨겨진 비밀: 거대 언어 모델이 관용구를 이해하는 놀라운 방식
Soyoung Oh 등 연구진은 기계적 해석 가능성 기법을 사용하여 LLaMA 모델의 관용구 처리 과정을 분석, 비유적 의미와 문자적 의미가 병렬적으로 처리되는 메커니즘을 밝혀냈습니다. 특정 어텐션 헤드가 비유적 의미를 강화하고 문자적 의미를 억제하는 역할을 하는 것을 발견하여, 모델의 의사결정 과정에 대한 이해를 높였습니다.

언어의 재치, 관용구. 우리가 일상적으로 사용하는 이 짧은 표현들은 컴퓨터에게는 풀기 어려운 난제입니다. 말 그대로의 의미와 비유적인 의미가 뒤섞여 있기 때문이죠. 하지만 최근, Soyoung Oh 등 연구진이 발표한 논문은 거대 언어 모델(LLM)이 이러한 관용구의 모호성을 어떻게 처리하는지 놀라운 메커니즘을 밝혀냈습니다.
연구진은 LLaMA3.2-1B-base 모델을 사용하여 관용구 처리 과정을 '기계적 해석 가능성' 기법으로 분석했습니다. 마치 모델의 두뇌 속을 들여다보는 듯한 작업이었죠. 그 결과, 모델이 관용구를 이해하는 과정이 세 단계로 이루어진다는 사실을 발견했습니다.
첫째, 초기 단계에서 비유적 의미가 우선적으로 인식됩니다. 특정 어텐션 헤드가 마치 선택적인 주의를 기울이듯, 비유적 의미를 강조하고 문자적 의미를 억제하는 역할을 한다는 것이 밝혀졌습니다. 마치 모델이 비유적 의미를 먼저 '찾아내는' 것처럼 말이죠.
둘째, 비유적 의미는 중간 경로를 통해 표현됩니다. 모델은 비유적 의미를 따로 처리하여, 관용구의 본래 의미와 비유적 의미가 동시에 존재하는 상태를 유지합니다.
셋째, 문자적 의미는 병렬적으로 처리됩니다. 비유적 의미 처리와 동시에 문자적 의미도 함께 처리되어, 모델은 두 가지 의미를 모두 고려할 수 있습니다. 마치 두 개의 레일이 동시에 작동하는 기차처럼 말이죠.
결국, 모델은 비유적 의미와 문자적 의미 사이에서 균형을 맞추고, 맥락에 따라 적절한 의미를 선택합니다. 이 연구는 거대 언어 모델의 작동 원리를 깊이 이해하는 데 중요한 단서를 제공하며, 앞으로 더욱 정교하고 자연스러운 언어 처리 모델 개발에 기여할 것으로 기대됩니다. 단순히 결과만 보는 것이 아니라, 그 과정에 숨겨진 놀라운 메커니즘을 엿볼 수 있었던 흥미로운 연구였습니다. 하지만 이러한 메커니즘이 모든 관용구에 적용되는지는 추가 연구가 필요할 것입니다.
Reference
[arxiv] Tug-of-war between idiom's figurative and literal meanings in LLMs
Published: (Updated: )
Author: Soyoung Oh, Xinting Huang, Mathis Pink, Michael Hahn, Vera Demberg
http://arxiv.org/abs/2506.01723v2