잊는 Transformer: 긴 문장도 거뜬히! Forget Gate로 무장한 새로운 AI 모델 등장!
몬트리올 대학 연구진이 개발한 '잊는 Transformer(FoX)'는 Forget Gate를 도입하여 장문맥락 처리 능력을 획기적으로 향상시킨 AI 모델입니다. 다양한 실험을 통해 기존 Transformer 및 다른 재귀 순환 모델보다 우수한 성능을 입증했으며, FlashAttention 호환성 및 위치 임베딩 불필요 등의 장점을 가지고 있습니다. 오픈소스로 공개되어 누구나 활용 가능합니다.

잊는 Transformer: 혁신적인 기억 관리로 장문맥락 처리의 한계를 뛰어넘다!
최근 몬트리올 대학 연구진(Zhixuan Lin, Evgenii Nikishin, Xu Owen He, Aaron Courville)이 발표한 논문 "Forgetting Transformer: Softmax Attention with a Forget Gate"는 AI 분야에 새로운 돌풍을 일으킬 만한 혁신적인 모델을 제시합니다. 바로 'Forgetting Transformer'(FoX) 입니다. 기존 Transformer 모델의 한계를 극복하기 위해 'Forget Gate' 라는 핵심 개념을 도입하여, 장문맥락 처리 능력을 비약적으로 향상시킨 것이 특징입니다.
기존 Transformer의 아킬레스건: 긴 문장을 기억하지 못하는 문제
Transformer는 뛰어난 성능으로 자연어 처리 분야를 혁신했지만, 긴 문장을 처리할 때 기억력 저하 문제를 보였습니다. 이는 Transformer의 구조적 특징에서 비롯된 것으로, 긴 문장의 정보를 효과적으로 처리하고 기억하는 데 어려움을 겪어왔습니다.
잊는 Transformer(FoX): Forget Gate로 기억 관리의 혁신을 이루다!
연구진은 이러한 문제점을 해결하기 위해 재귀 순환 모델에서 사용되는 Forget Gate 개념을 Transformer에 도입했습니다. Forget Gate는 데이터 의존적인 방식으로 정규화되지 않은 어텐션 점수를 감소시켜, 불필요한 정보를 '잊는' 기능을 수행합니다. 이를 통해 모델은 중요한 정보에 집중하고, 장문맥락에서도 효율적인 정보 처리가 가능하게 되었습니다.
놀라운 성능 향상: 다양한 실험으로 증명된 우수성
FoX는 다양한 실험을 통해 기존 Transformer를 능가하는 성능을 입증했습니다. 특히 장문맥락 언어 모델링, 길이 외삽, 단문맥락 하위 작업에서 뛰어난 성능을 보였으며, 장문맥락 하위 작업에서는 Transformer와 동등한 수준을 유지했습니다. 더욱 놀라운 점은 Mamba-2, HGRN2, DeltaNet과 같은 기존의 재귀 순환 모델보다 훨씬 뛰어난 장문맥락 처리 능력을 보여준 것입니다. '바늘 찾기' 테스트와 같은 다양한 분석을 통해 FoX의 우수성이 확인되었습니다.
추가적인 성능 향상: 'Pro' 블록 디자인
연구진은 재귀 순환 모델의 일반적인 구조적 구성 요소를 통합한 'Pro' 블록 디자인을 제안하여, FoX와 Transformer의 성능을 더욱 향상시켰습니다. 또한, FoX는 FlashAttention 알고리즘과 호환 가능하며 위치 임베딩이 필요하지 않다는 장점을 가지고 있습니다.
오픈소스 공개: 누구나 FoX를 경험할 수 있는 기회!
연구진은 https://github.com/zhixuan-lin/forgetting-transformer 에서 FoX의 코드를 공개하여, 누구든지 이 혁신적인 모델을 사용하고 연구할 수 있도록 지원하고 있습니다.
결론: AI의 미래를 향한 한 걸음
FoX는 장문맥락 처리의 한계를 극복하고, AI의 발전에 새로운 가능성을 제시하는 획기적인 모델입니다. 앞으로 FoX가 자연어 처리 분야는 물론, 다양한 분야에서 혁신적인 성과를 창출할 것으로 기대됩니다.
Reference
[arxiv] Forgetting Transformer: Softmax Attention with a Forget Gate
Published: (Updated: )
Author: Zhixuan Lin, Evgenii Nikishin, Xu Owen He, Aaron Courville
http://arxiv.org/abs/2503.02130v2