생성형 거대 언어 모델, 요구사항 분류에서 얼마나 효과적일까요?
본 연구는 생성형 LLM인 Bloom, Gemma, Llama를 이용한 요구사항 분류 실험을 통해 프롬프트 디자인과 LLM 아키텍처의 중요성과 데이터셋 변화의 상황적 영향을 밝혔습니다. 이는 향후 모델 개발 전략에 중요한 시사점을 제공합니다.

생성형 거대 언어 모델의 요구사항 분류 성능: 놀라운 결과와 미래 전망
최근 몇 년 동안, 트랜스포머 기반 거대 언어 모델(LLM)은 자연어 처리(NLP) 분야에 혁명을 일으켰습니다. 특히 생성형 모델은 맥락을 인식하는 텍스트 생성이 필요한 작업에 새로운 가능성을 열었습니다. 요구사항 공학(RE) 분야에서도 추적 링크 탐지, 규정 준수 등 다양한 작업에 LLM 실험이 급증하고 있습니다.
요구사항 분류는 RE에서 흔히 볼 수 있는 작업입니다. BERT와 같은 비생성형 LLM이 이 작업에 성공적으로 적용된 사례가 있지만, 생성형 LLM에 대한 탐구는 제한적이었습니다. 이러한 간극은 중요한 질문을 제기합니다. 맥락을 인식하는 출력을 생성하는 생성형 LLM이 요구사항 분류에서 얼마나 잘 수행될 수 있을까요?
Waad Alhoshan, Alessio Ferrari, Liping Zhao 연구팀은 이 질문에 답하기 위해 Bloom, Gemma, Llama 세 가지 생성형 LLM의 이진 및 다중 클래스 요구사항 분류 성능을 조사하는 연구를 진행했습니다. PROMISE NFR, Functional-Quality, SecReq 등 세 가지 널리 사용되는 데이터 세트를 사용하여 400회가 넘는 광범위한 실험을 설계했습니다.
연구 결과, 프롬프트 디자인과 LLM 아키텍처는 모든 상황에서 중요한 요소임이 밝혀졌습니다. 하지만 데이터 세트의 변화는 과제의 복잡성에 따라 영향이 달라지는 것으로 나타났습니다. 즉, 단순한 분류 작업에서는 데이터셋의 영향이 적지만, 복잡한 분류 작업에서는 데이터셋의 선택이 성능에 큰 영향을 미친다는 것입니다.
이 연구는 향후 모델 개발 및 배포 전략에 중요한 시사점을 제공합니다. 과제별 요구사항에 맞는 프롬프트 구조를 최적화하고 모델 아키텍처를 과제별 필요에 맞게 조정하는 것이 향상된 성능을 얻는 데 중요한 전략이 될 것입니다. 이번 연구는 생성형 LLM의 실질적인 응용 가능성과 한계를 명확히 보여주는 동시에, 더욱 효율적이고 정확한 LLM 기반 요구사항 분류 시스템 개발을 위한 중요한 이정표를 제시합니다.
Reference
[arxiv] How Effective are Generative Large Language Models in Performing Requirements Classification?
Published: (Updated: )
Author: Waad Alhoshan, Alessio Ferrari, Liping Zhao
http://arxiv.org/abs/2504.16768v1