혁신적인 AI 프롬프트 최적화: 자체 감독 학습의 승리
중국과학원 연구진이 개발한 자체 감독 프롬프트 최적화(SPO)는 외부 참조 없이도 효과적인 프롬프트를 생성하는 비용 효율적인 프레임워크입니다. LLM 출력 비교를 통해 평가 및 최적화 신호를 도출하여 기존 방법보다 훨씬 적은 비용과 데이터로 최첨단 성능을 달성했습니다.

대규모 언어 모델(LLM)의 추론 능력 향상과 다양한 분야에서의 작업 요구 사항에 맞는 출력 정렬을 위해서는 잘 설계된 프롬프트가 필수적입니다. 하지만 수동으로 프롬프트를 설계하는 것은 전문 지식과 반복적인 실험을 필요로 하는 어려운 작업입니다.
기존의 프롬프트 최적화 방법들은 이러한 과정을 자동화하려는 시도를 했지만, 정답이나 인간의 개입과 같은 외부 참조에 크게 의존했습니다. 이는 이러한 데이터를 구하기 어렵거나 비용이 많이 드는 실제 시나리오에서는 적용성이 제한적이었습니다.
중국과학원 소속 Xiang Jinyu 등 연구진은 이러한 문제를 해결하기 위해 자체 감독 프롬프트 최적화(Self-Supervised Prompt Optimization, SPO) 라는 획기적인 프레임워크를 제안했습니다. SPO는 외부 참조 없이도 폐쇄형 및 개방형 작업 모두에 대해 효과적인 프롬프트를 발견하는 비용 효율적인 방법입니다.
SPO의 핵심 아이디어는 프롬프트의 질이 LLM 출력에 직접적으로 나타나고, LLM이 작업 요구 사항 준수 여부를 효과적으로 평가할 수 있다는 점에 있습니다. 연구진은 LLM 출력 비교를 통해 평가 및 최적화 신호를 순수하게 도출했습니다. 구체적으로, SPO는 LLM 평가자에 의해 평가된 짝 비교 출력을 통해 우수한 프롬프트를 선택하고, LLM 최적화기를 사용하여 출력을 작업 요구 사항에 맞춥니다.
광범위한 실험 결과, SPO는 기존의 최첨단 프롬프트 최적화 방법들을 능가하는 성능을 보였습니다. 기존 방법보다 훨씬 적은 비용(1.1%~5.6%)과 샘플(3개)만으로도 비슷하거나 더 나은 결과를 달성했습니다. 이는 비용 효율성과 효율성 면에서 괄목할 만한 성과입니다. 관련 코드는 https://github.com/geekan/MetaGPT/blob/main/examples/spo 에서 확인할 수 있습니다.
이 연구는 LLM의 활용성을 한층 높이고, 실제 응용 분야에서의 AI 기술 발전에 중요한 이정표를 제시했습니다. 더 적은 비용과 데이터로 더 나은 결과를 얻을 수 있다는 점은, AI 기술의 대중화와 상용화에 큰 기여를 할 것으로 기대됩니다.
Reference
[arxiv] Self-Supervised Prompt Optimization
Published: (Updated: )
Author: Jinyu Xiang, Jiayi Zhang, Zhaoyang Yu, Fengwei Teng, Jinhao Tu, Xinbing Liang, Sirui Hong, Chenglin Wu, Yuyu Luo
http://arxiv.org/abs/2502.06855v2