놀라운 AI의 기억력: 언어의 장벽을 넘어서는 교차 언어 학습
알리샤 스리바스타바 등 연구진의 논문은 대규모 언어 모델(LLM)의 놀라운 교차 언어 기억 능력을 밝혔습니다. OWL 데이터셋을 이용한 실험 결과, GPT-4o 모델은 새롭게 번역된 구절에서도 저자와 제목을 69%의 높은 정확도로 식별했습니다. 이는 LLM의 잠재력과 다국어 처리 기술 발전에 중요한 의미를 갖습니다.

최근, AI 분야에서 흥미로운 연구 결과가 발표되었습니다. 알리샤 스리바스타바(Alisha Srivastava) 등 연구진이 발표한 논문 "OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature"는 대규모 언어 모델(LLM)의 놀라운 교차 언어 기억 능력을 보여줍니다. 기존에는 LLM이 주로 영어 텍스트를 학습하고 기억하는 것으로 알려져 있었지만, 이 연구는 이 능력이 다른 언어로 얼마나 잘 일반화되고 전이되는지에 대한 의문을 제기하며 시작됩니다.
연구진은 OWL이라는 새로운 데이터셋을 구축했습니다. OWL은 10개 언어(영어 원본, 베트남어, 스페인어, 터키어 공식 번역본, 세소토어, 요루바어, 마이틸리어, 마다가스카르어, 세츠와나어, 타히티어 등 6개 저자원 언어의 새 번역본 포함)의 20권의 책에서 발췌한 31,500개의 정렬된 구절로 구성되어 있습니다. 이를 통해 다양한 언어와 모델 크기에 걸쳐 LLM의 기억 능력을 종합적으로 평가할 수 있었습니다.
평가는 세 가지 작업으로 진행되었습니다. 첫째, 직접 조사(direct probing) : 모델이 책의 제목과 저자를 식별하는 능력을 평가합니다. 둘째, 이름 빈칸 채우기(name cloze) : 가려진 등장인물의 이름을 예측하는 능력을 평가합니다. 셋째, 접두사 조사(prefix probing) : 문장의 일부를 제시하고 나머지를 생성하는 능력을 평가합니다.
결과는 놀라웠습니다. GPT-4o 모델은 새롭게 번역된 구절에서도 저자와 제목을 69%의 정확도로 식별했습니다! 가려진 등장인물 이름도 6%의 정확도로 예측했습니다. 이는 LLM이 사전 훈련 데이터에 직접적인 번역본이 없더라도 언어 간에 콘텐츠를 일관되게 기억한다는 것을 시사합니다. 단어 섞기와 같은 섭동(perturbation)을 가했을 때도 정확도는 다소 감소했지만 (7% 감소), 기억 능력 자체가 사라진 것은 아니었습니다.
이 연구는 LLM의 교차 언어 기억 능력의 범위를 보여주는 동시에, 다양한 모델 간의 차이점에 대한 통찰력을 제공합니다. AI의 놀라운 발전과 그 잠재력을 다시 한번 확인시켜주는 중요한 연구 결과입니다. 앞으로 이러한 연구는 다국어 처리 및 기계 번역 기술의 발전에 크게 기여할 것으로 예상됩니다.
Reference
[arxiv] OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature
Published: (Updated: )
Author: Alisha Srivastava, Emir Korukluoglu, Minh Nhat Le, Duyen Tran, Chau Minh Pham, Marzena Karpinska, Mohit Iyyer
http://arxiv.org/abs/2505.22945v1