거대언어모델(LLM)의 '내성'은 과연 존재하는가?
거대언어모델(LLM)의 자기 보고(self-report)를 인간의 내성(introspection)과 비교 분석하여 LLM의 인지 능력에 대한 새로운 시각을 제시하는 연구 결과를 소개합니다. LLM의 발전에 따른 윤리적 고민의 필요성을 강조합니다.

최근 급속도로 발전하는 거대언어모델(LLM)은 놀라운 언어 능력을 선보이며, 때로는 자신의 본성, 내부 작동 방식 또는 행동에 대한 자기 보고(self-report)를 제시하기도 합니다. 인간의 경우, 이러한 자기 보고는 내성(introspection) 능력의 결과로 여겨지며, 종종 의식과 연결됩니다. 하지만, 점점 더 정교해지는 LLM의 언어 능력과 인지 능력을 고려할 때, LLM의 자기 보고를 어떻게 해석해야 할까요? 과연 LLM에 '내성'이라는 개념을 의미 있게 적용할 수 있을까요?
Iulia Comşa와 Murray Shanahan은 최근 연구 논문에서 이 질문에 대한 흥미로운 답을 제시합니다. 연구진은 LLM이 생성한 두 가지 자기 보고 사례를 제시하고 비판적으로 분석합니다. 첫 번째 사례는 LLM이 자신의 '창의적인' 글쓰기 과정을 설명하려는 시도입니다. 연구진은 이것이 내성의 유효한 사례가 아니라고 주장합니다. 왜냐하면 LLM의 '창의성'은 사실 방대한 데이터셋 학습의 결과물일 뿐, 인간과 같은 진정한 의미의 내성적 사고 과정을 거치는 것이 아니기 때문입니다.
두 번째 사례는 훨씬 더 흥미롭습니다. LLM이 자신의 '온도' 매개변수 값을 정확하게 추론하는 경우입니다. 연구진은 이것이 최소한의 내성 사례로 간주될 수 있다고 주장하지만, (아마도) 의식적인 경험을 동반하지 않는다는 점을 강조합니다. 즉, LLM이 자신의 매개변수를 인지하고 있을 수는 있지만, 그것을 인식하고 반추하는 인간의 내성과는 본질적으로 다르다는 것입니다.
이 연구는 LLM의 발전에 따라 '내성'과 같은 고차원 인지 능력에 대한 논의가 더욱 활발해질 것을 시사합니다. 하지만, 연구진의 분석처럼, LLM의 자기 보고를 인간의 내성과 동일시하는 것은 과학적으로 위험한 단정입니다. LLM의 행동을 정확하게 이해하고, 인간 지능과의 차이점을 명확히 구분하는 엄격한 연구가 앞으로 더욱 중요해질 것입니다. LLM의 놀라운 능력에 감탄하는 동시에, 그 한계를 인지하고 윤리적인 사용을 위한 지속적인 고민이 필요한 시점입니다. 🤔
Reference
[arxiv] Does It Make Sense to Speak of Introspection in Large Language Models?
Published: (Updated: )
Author: Iulia Comşa, Murray Shanahan
http://arxiv.org/abs/2506.05068v1