딥러닝으로 백만 단어 소설 쓰기: 최적의 개요 길이 찾기


한원 션과 팅 영 연구팀은 LLM을 이용한 초장편 소설 생성에서 최적의 개요 길이를 찾기 위한 정보 이론적 분석과 계층적 두 단계 생성 파이프라인을 제시했습니다. 실험 결과, 이 방법은 의미 왜곡을 줄이고 인간의 노력을 효율화하는 데 효과적인 것으로 나타났습니다.

related iamge

대규모 언어 모델(LLM)을 이용한 소설 창작이 활발해지고 있지만, 백만 단어에 달하는 초장편 소설을 생성하는 것은 여전히 큰 과제입니다. 기존의 DOME, Plan&Write, Long Writer와 같은 프레임워크는 1만~10만 단어 정도의 비교적 짧은 소설에 초점을 맞춰왔기 때문입니다.

그런데 최근, 한원 션과 팅 영 연구팀이 흥미로운 연구 결과를 발표했습니다. "계층적 초장편 소설 생성에서의 정보 왜곡 측정: 최적의 확장 비율" 이라는 제목의 이 논문은 LLMZip과 LLM2Vec과 같은 최신 텍스트 압축 방법의 통찰력을 바탕으로, LLM이 초장편 소설을 압축 및 재구성할 때 발생하는 정보 왜곡을 정량적으로 분석합니다.

핵심은 바로 계층적 두 단계 생성 파이프라인입니다. 연구팀은 개요 → 상세 개요 → 원고의 두 단계 과정을 통해 소설을 생성하는 방식을 제안했습니다. 단순히 한 번에 소설 전체를 생성하는 것이 아니라, 먼저 큰 틀의 개요를 잡고, 그 다음 세부적인 개요를 작성한 후, 마지막으로 본문을 작성하는 방식입니다.

이러한 계층적 접근 방식을 통해 연구팀은 단일 단계 방법에 비해 의미 왜곡을 크게 줄일 수 있음을 중국 소설을 대상으로 한 실험을 통해 증명했습니다. 이는 정보 보존과 인간의 노력 사이의 균형을 맞추는 최적의 개요 길이를 찾는 데 중요한 의미를 가집니다.

결론적으로, 이 연구는 LLM과의 협업을 통해 백만 단어에 달하는 초장편 소설을 창작하고자 하는 작가와 연구자들에게 실질적인 지침을 제공합니다. 단순히 LLM의 성능 향상에만 집중하는 것이 아니라, 인간의 창의성과 LLM의 효율성을 결합하는 새로운 패러다임을 제시하는 획기적인 연구라고 할 수 있습니다. 앞으로 이 연구를 바탕으로 더욱 정교하고 창의적인 초장편 소설 생성 기술이 개발될 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio

Published:  (Updated: )

Author: Hanwen Shen, Ting Ying

http://arxiv.org/abs/2505.12572v1