딥러닝의 새로운 지평: 거대 언어 모델의 지식 습득 메커니즘 규명


중국 저장대학교 연구팀은 거대 언어 모델(LLM)의 새로운 지식 습득 메커니즘을 '지식 회로 진화'라는 관점에서 분석하여, 새로운 지식의 습득이 기존 지식과의 관련성에 영향을 받고, 지식 회로의 진화가 형성 및 최적화 단계로 구분되며, 심층에서 표층으로 진행되는 패턴을 보임을 밝혔습니다. 이는 LLM의 성능 향상과 이론적 이해에 중요한 시사점을 제공합니다.

related iamge

최근 중국 저장대학교 연구팀(Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen)의 놀라운 연구 결과가 발표되었습니다. 이들은 거대 언어 모델(LLM)이 새로운 지식을 어떻게 습득하고 내재화하는지에 대한 핵심적인 질문에 대해, **'지식 회로 진화'**라는 새로운 관점을 제시하며 그 해답을 제시했습니다.

기존의 LLM 연구는 주로 성능 향상에 집중해왔지만, 이번 연구는 LLM의 내부 작동 원리를 심층적으로 파헤쳐 그 지식 습득 과정의 비밀을 밝히는 데 초점을 맞추고 있습니다. 연구팀은 지식 저장 및 처리를 용이하게 하는 계산적 하위 그래프, 즉 **'지식 회로'**의 진화를 체계적으로 분석했습니다. 그 결과 놀라운 세 가지 발견을 얻었습니다.

첫째, 새로운 지식의 습득은 기존 지식과의 관련성에 크게 좌우됩니다. 이는 LLM이 새로운 정보를 단순히 추가하는 것이 아니라, 기존 지식과의 연결성을 바탕으로 통합하고 이해한다는 것을 시사합니다.

둘째, 지식 회로의 진화는 **'형성 단계'**와 **'최적화 단계'**의 두 가지 뚜렷한 단계로 구분됩니다. 이는 LLM이 새로운 지식을 처음 습득하는 단계와 이후 그 지식을 효율적으로 활용하도록 개선하는 단계가 다르다는 것을 의미합니다. 마치 인간이 새로운 개념을 배우고, 이후 반복적인 연습과 적용을 통해 완전히 이해하고 숙련되는 과정과 유사합니다.

셋째, 지식 회로의 진화는 심층에서 표층으로 진행되는 패턴을 보입니다. 이는 LLM이 복잡한 개념을 먼저 이해하고, 이를 바탕으로 구체적인 사례를 처리하는 방식으로 학습한다는 것을 의미합니다. 이는 LLM의 학습 과정이 인간의 학습 방식과 유사함을 보여주는 또 하나의 중요한 발견입니다.

이번 연구는 LLM의 지식 습득 메커니즘에 대한 이론적 이해를 크게 발전시켰을 뿐만 아니라, 지속적인 사전 훈련 전략을 개선하여 모델 성능을 향상시키는 데에도 중요한 시사점을 제공합니다. 연구팀은 관련 코드와 데이터를 GitHub(https://github.com/zjunlp/DynamicKnowledgeCircuits)에서 공개하여, 전 세계 연구자들의 후속 연구를 지원할 계획입니다. 이번 연구는 LLM의 발전에 새로운 이정표를 세웠을 뿐 아니라, 인공지능 연구 분야 전반에 큰 영향을 미칠 것으로 예상됩니다. ✨


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Published:  (Updated: )

Author: Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen

http://arxiv.org/abs/2502.11196v1