놀라운 AI의 추론 능력: 흩어진 지식을 연결하는 트랜스포머
본 연구는 트랜스포머 모델의 조합적 추론 능력을 평가하기 위한 새로운 합성 학습 과제 FTCT를 제시하고, 소수 샷 CoT 프롬프팅을 통해 트랜스포머가 훈련 데이터에 없는 조합까지 추론할 수 있음을 보여줍니다. 모델 복잡성 및 데이터 유사성과의 상관관계를 밝히고, 트랜스포머가 일반화 가능한 프로그램을 학습한다는 결론을 도출합니다.

인간처럼 생각하는 AI? 흩어진 지식을 연결하는 트랜스포머의 놀라운 능력
인간은 여러 정보원으로부터 얻은 지식을 통합하여 놀라운 추론 능력을 보여줍니다. 예를 들어, A에서 B, B에서 C로 이어지는 관계를 각각 다른 곳에서 학습하더라도, A와 C의 관계를 추론할 수 있습니다. 이러한 인간의 일반화 능력을 AI는 어떻게 모방할까요?
중국과학원의 Yin Yutong과 Wang Zhaoran 연구진은 이 질문에 답하기 위해 FTCT (Fragmented at Training, Chained at Testing) 라는 새로운 합성 학습 과제를 제시했습니다. FTCT는 훈련 단계에서 전체적인 인과 관계 그래프의 일부분만 제시하고, 테스트 단계에서는 이러한 조각난 지식을 통합하여 전체 인과 관계를 추론해야 하는 과제입니다. 이는 마치 퍼즐 조각을 맞추는 것과 같습니다.
연구 결과는 놀라웠습니다. 소수 샷 Chain-of-Thought(CoT) 프롬프팅을 사용한 트랜스포머 모델은 훈련 데이터에 존재하지 않던 조합까지도 정확하게 추론하는 능력을 보였습니다. 이는 트랜스포머가 단순히 데이터를 암기하는 것이 아니라, 조합적 추론을 수행할 수 있음을 의미합니다.
더 나아가, 연구진은 모델의 복잡성과 훈련 및 테스트 데이터의 유사성이 조합적 추론 능력과 강한 상관관계를 갖는다는 것을 밝혀냈습니다. 이는 더욱 복잡한 모델일수록, 그리고 훈련 데이터와 테스트 데이터가 유사할수록 AI의 추론 능력이 향상된다는 것을 의미합니다.
이론적 및 실험적 분석을 통해 연구진은 트랜스포머가 훈련 데이터로부터 일반화 가능한 프로그램을 학습하며, 이를 통해 테스트 단계에서 효과적인 조합적 추론을 수행한다는 결론을 내렸습니다. 이는 AI의 추론 능력에 대한 새로운 이해를 제공하며, 향후 더욱 발전된 AI 시스템 개발에 중요한 시사점을 제공합니다. AI가 단순히 패턴을 인식하는 수준을 넘어, 인간처럼 복잡한 추론을 수행할 수 있다는 가능성을 확인한 획기적인 연구입니다!
Reference
[arxiv] Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
Published: (Updated: )
Author: Yutong Yin, Zhaoran Wang
http://arxiv.org/abs/2501.15857v2