혁신적인 AI: 구조 정렬을 통한 LLM의 장문 생성 능력 향상
김재명 등 연구팀의 '구조 정렬' 기법은 LLM의 장문 생성 능력을 향상시키는 혁신적인 방법으로, 인간의 담화 구조를 LLM에 통합하고 PPO 기반의 밀집 보상 체계를 통해 우수한 성능을 달성했습니다. 모든 데이터와 코드를 공개하여 AI 연구 발전에 기여할 것으로 기대됩니다.

김재명, 아난드 라마찬드란, 파리데 타바조에, 김주경, 올레그 로클렌코, 강동엽 연구팀이 발표한 논문, "구조에 맞추기: 구조적 정보를 가진 대규모 언어 모델 정렬" 은 대규모 언어 모델(LLM)의 오랜 숙제였던 장문 생성 문제에 대한 획기적인 해결책을 제시합니다. LLM은 종종 계층적 계획과 구조화된 구성이 부족하여 일관성 있는 장문 생성에 어려움을 겪습니다.
이 연구팀은 '구조 정렬(Structural Alignment)' 이라는 새로운 방법을 제안하여 이 문제에 접근합니다. 인간의 담화 구조를 LLM에 통합하는 이 방법은 모델이 응집력 있고 잘 조직된 결과물을 생성하도록 유도합니다. 구체적으로, 연구팀은 근접 정책 최적화(Proximal Policy Optimization, PPO) 프레임워크 내에서 밀집 보상 체계를 활용하여 인간의 글쓰기와 관련된 담화의 독창성에 기반한 세분화된 토큰 수준의 보상을 제공합니다.
두 가지 보상 모델이 평가되었는데, 첫 번째 모델은 표면적인 텍스트 특징을 평가하여 명시적인 구조를 제공함으로써 가독성을 향상시키고, 두 번째 모델은 계층적 담화 모티프를 통해 전반적인 담화 패턴을 분석하여 더 깊은 일관성과 수사적 정교함을 강화합니다. 결과적으로, 이 연구는 에세이 생성 및 장문 요약과 같은 작업에서 기존 모델과 강화 학습 기반 미세 조정(RLHF) 모델을 능가하는 성능을 보여줍니다.
흥미로운 점은 연구팀이 모든 훈련 데이터와 코드를 GitHub 에서 공개적으로 공유한다는 점입니다. 이는 다른 연구자들이 이 방법을 활용하고 더욱 발전시킬 수 있는 기회를 제공하며, AI 분야의 발전에 크게 기여할 것으로 예상됩니다.
이 연구는 LLM의 장문 생성 능력 향상에 중요한 발걸음을 내딛었을 뿐만 아니라, 개방형 과학의 중요성을 다시 한번 보여주는 사례이기도 합니다. 앞으로 이 연구를 바탕으로 더욱 정교하고 효율적인 장문 생성 기술이 개발될 것으로 기대됩니다. 🎉
Reference
[arxiv] Align to Structure: Aligning Large Language Models with Structural Information
Published: (Updated: )
Author: Zae Myung Kim, Anand Ramachandran, Farideh Tavazoee, Joo-Kyung Kim, Oleg Rokhlenko, Dongyeop Kang
http://arxiv.org/abs/2504.03622v1