AI의 창의성 한계를 뛰어넘다: 다음 토큰 예측을 넘어서
본 논문은 AI 언어 모델의 창의성 한계를 탐구하고, 다음 토큰 예측 방식의 한계를 극복하기 위해 멀티 토큰 접근 방식과 해시 조건화 기법을 제시합니다. 실험 결과 멀티 토큰 접근 방식이 더욱 다양하고 창의적인 결과를 생성하며, 해시 조건화가 트랜스포머 모델의 무작위성과 응집력을 효과적으로 제어하는 것을 확인했습니다.

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan 등이 공동 집필한 논문 "Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction"은 현존하는 언어 모델의 창의성 한계를 탐구하고 그 한계를 넘어서는 새로운 접근법을 제시합니다.
핵심 내용은 다음과 같습니다.
실제 세계의 복잡한 과제를 단순화: 연구진은 실제 세계의 복잡한 창의적 과제들을 추상화하여 간소화된 알고리즘 과제로 설계했습니다. 이를 통해 현존 언어 모델의 창의성 한계를 명확하고 제어 가능하게 측정할 수 있게 되었습니다. 이는 단어 놀이, 유추, 연구와 같은 추상적 지식 그래프에서 새로운 연결을 발견하거나 수학 문제 또는 새로운 단백질을 설계하는 것과 같은 새로운 패턴을 구성하는 과제를 포함합니다.
다음 토큰 예측의 한계: 논문은 다음 토큰 학습 방식의 근시안적인 측면과 과도한 암기 경향을 실험적으로, 개념적으로 논증합니다. 즉, 다음 단어만 예측하는 방식은 진정한 창의성을 발휘하기에 부족하다는 것입니다.
멀티 토큰 접근 방식의 우수성: 반면, 교사 없는 학습(teacherless training)과 확산 모델(diffusion models)과 같은 멀티 토큰 접근 방식은 다양하고 독창적인 결과물을 생성하는 데 탁월함을 보여줍니다. 이는 단순히 다음 단어만 예측하는 것이 아니라, 여러 단어를 동시에 고려하여 문맥을 더욱 깊이 이해하고 창의적인 결과를 도출하기 때문입니다.
해시 조건화 기법: 트랜스포머 모델에서 무작위성을 유도하면서 응집력을 유지하는 효과적인 방법으로 '해시 조건화(hash-conditioning)' 기법을 제시했습니다. 이 기법은 출력 계층에서 온도 샘플링(temperature sampling)을 사용하는 것보다 입력 계층에 직접 노이즈를 주입하여 더 나은 결과를 얻을 수 있음을 보여줍니다.
개방형 창의성 평가를 위한 기준 마련: 본 연구는 개방형 창의적 능력을 분석하기 위한 체계적이고 최소한의 테스트 환경을 제공하며, 다음 토큰 학습과 소프트맥스 기반 샘플링을 넘어서는 새로운 근거를 제시합니다. GitHub(https://github.com/chenwu98/algorithmic-creativity)에서 일부 코드를 공개하여 연구의 재현성을 높였습니다.
결론적으로, 이 논문은 AI의 창의성에 대한 심도있는 이해와 함께, 다음 토큰 예측의 한계를 넘어서는 새로운 가능성을 제시하는 중요한 연구입니다. 멀티 토큰 접근 방식과 해시 조건화 기법은 앞으로 AI 모델의 창의성을 향상시키는 데 중요한 역할을 할 것으로 기대됩니다. 📈
Reference
[arxiv] Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
Published: (Updated: )
Author: Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
http://arxiv.org/abs/2504.15266v1