맥락 학습의 혁신: 순서에 무관한 새로운 알고리즘, InvICL 등장!
베이징대학교 연구진이 개발한 새로운 맥락 학습 알고리즘 InvICL이 기존 알고리즘의 순서 민감성 문제를 해결하고, 다양한 벤치마크 데이터셋에서 우수한 성능을 입증했습니다. 정보 누출 방지와 맥락 상호 의존성이라는 두 가지 핵심 요소를 통해 뛰어난 일반화 능력을 보여주는 InvICL은 향후 대규모 언어 모델 발전에 크게 기여할 것으로 예상됩니다.

최근 몇 년 동안 인공지능 분야에서 가장 주목받는 기술 중 하나는 바로 자동 회귀적 대규모 언어 모델입니다. 이 모델들은 방대한 양의 텍스트 데이터를 학습하여 인간과 유사한 수준의 언어 이해 및 생성 능력을 보여주고 있습니다. 이러한 모델들의 핵심 기능 중 하나가 바로 맥락 학습(In-context Learning, ICL) 입니다. ICL은 모델이 제시된 몇 개의 예시를 통해 새로운 작업을 학습하는 능력을 의미합니다.
하지만 기존의 ICL은 예시들의 순서에 매우 민감하다는 치명적인 약점을 가지고 있었습니다. 예시들의 순서가 바뀌면 모델의 성능이 크게 저하되는 문제가 발생했는데, 이는 예시들이 서로 독립적임에도 불구하고 발생하는 현상이었습니다. 이 문제를 해결하기 위해 많은 연구가 진행되었지만, 기존 알고리즘과 비교했을 때 성능이 크게 떨어지는 경우가 많았습니다.
베이징대학교의 Lizhe Fang, Yifei Wang 등 연구진은 이러한 문제에 대한 해결책을 제시했습니다. 그들은 ICL 알고리즘 설계에서 중요한 두 가지 요소, 즉 정보 누출 방지와 맥락 상호 의존성을 밝혀냈습니다. 기존 방법들은 이 두 가지 요소를 동시에 만족시키지 못했던 것입니다. 연구진은 이러한 통찰을 바탕으로 새로운 ICL 알고리즘인 InvICL (Invariant ICL) 을 개발했습니다.
InvICL은 기존 알고리즘과 달리 예시의 순서에 영향을 받지 않고, 동시에 정보 누출을 방지하며 맥락 간의 상호 의존성을 유지하도록 설계되었습니다. 실험 결과, InvICL은 다양한 벤치마크 데이터셋에서 기존의 불변 알고리즘과 비불변 알고리즘 모두를 능가하는 성능을 보였습니다. 특히, 다양한 입력 길이에 걸쳐 우수한 일반화 능력을 보여주는 것이 확인되었습니다. 연구진은 InvICL의 코드를 공개하여 (https://github.com/PKU-ML/InvICL) 다른 연구자들의 활용을 지원하고 있습니다.
이번 연구는 ICL의 한계를 극복하고 성능을 향상시키는 중요한 발걸음입니다. InvICL은 앞으로 더욱 발전된 대규모 언어 모델 개발에 중요한 기여를 할 것으로 기대됩니다. 자세한 내용은 논문을 참조하십시오.
Reference
[arxiv] Rethinking Invariance in In-context Learning
Published: (Updated: )
Author: Lizhe Fang, Yifei Wang, Khashayar Gatmiry, Lei Fang, Yisen Wang
http://arxiv.org/abs/2505.04994v1