거대 언어 모델의 창의성 혁명: 창의적 선호도 최적화(CrPO) 등장
본 기사는 거대 언어 모델(LLM)의 창의성 향상을 위한 새로운 방법인 '창의적 선호도 최적화(CrPO)'에 대한 연구 결과를 소개합니다. CrPO는 기존의 LLM 창의성 향상 방법의 한계를 극복하고, 다양한 창의성 측면을 고려하여 더욱 참신하고 다양하며 놀라운 결과물을 생성하는 데 성공했습니다. 이 연구는 LLM의 창의적 능력 향상에 있어 중요한 이정표가 될 것으로 기대됩니다.

거대 언어 모델(LLM)의 창의성 혁명: 창의적 선호도 최적화(CrPO) 등장
최근 놀라운 발전을 거듭하고 있는 거대 언어 모델(LLM)은 자연어 생성 작업에서 인상적인 성능을 보여주고 있습니다. 하지만 참신성, 다양성, 놀라움, 품질 등으로 특징지어지는 진정한 창의적 콘텐츠 생성 능력은 아직 제한적입니다. 기존의 LLM 창의성 향상 방법들은 다양성이나 특정 작업에만 초점을 맞춰 창의성의 다면적인 본질을 일반화된 방식으로 다루지 못했습니다.
하지만 이제 새로운 혁신이 등장했습니다! Mete Ismayilzada를 비롯한 7명의 연구자들은 창의적 선호도 최적화(CrPO) 라는 획기적인 방법을 제시했습니다. CrPO는 여러 창의성 차원에서 나온 신호들을 선호도 최적화 목표에 모듈 방식으로 주입하는 새로운 정렬 방법입니다. 이는 마치 레고 블록처럼 다양한 창의성 요소들을 조합하여 LLM을 더욱 창의적으로 만들 수 있다는 것을 의미합니다.
연구팀은 20만 개가 넘는 인간이 생성한 응답과 30개 이상의 심리적 창의성 평가를 포함하는 대규모 인간 선호도 데이터 세트인 MuCE를 사용하여 CrPO를 통해 강화된 여러 모델을 훈련하고 평가했습니다. 이는 실제 사람들의 선호도를 반영하여 모델의 창의성을 더욱 정교하게 조율할 수 있게 해줍니다. 그 결과는 놀라웠습니다. CrPO를 적용한 모델들은 GPT-4o를 포함한 기존의 강력한 기준 모델들을 자동 및 인간 평가 모두에서 능가했습니다! 더욱 참신하고 다양하며 놀라운 결과물을 생성하면서 높은 출력 품질을 유지했습니다. NoveltyBench에 대한 추가 평가는 이 방법의 일반화 가능성을 더욱 확증해줍니다.
이 연구는 선호도 프레임워크 내에서 직접적으로 창의성을 최적화하는 것이 출력 품질을 저해하지 않고 LLM의 창의적 능력을 향상시키는 유망한 방향임을 보여줍니다. 이는 LLM이 단순한 정보 제공 도구를 넘어 예술가, 작가, 음악가와 같은 창의적인 역할을 수행할 수 있는 가능성을 열어줍니다. 앞으로 CrPO가 LLM의 창의성 발전에 어떤 영향을 미칠지, 그리고 어떤 새로운 가능성들을 열어갈지 기대됩니다. 이 연구는 LLM의 발전에 있어 중요한 이정표가 될 것으로 보이며, 앞으로 창의성과 인공지능의 경계를 허무는 더욱 혁신적인 연구들이 이어질 것으로 예상됩니다.
Reference
[arxiv] Creative Preference Optimization
Published: (Updated: )
Author: Mete Ismayilzada, Antonio Laverghetta Jr., Simone A. Luchini, Reet Patel, Antoine Bosselut, Lonneke van der Plas, Roger Beaty
http://arxiv.org/abs/2505.14442v1