챗GPT의 신뢰도: 프롬프트의 작은 변화가 가져온 큰 결과


본 연구는 챗GPT와 같은 대규모 언어 모델(LLM)의 감정 분류 정확도에 프롬프트의 미세한 변화가 미치는 영향을 분석한 결과를 제시합니다. 10만 개의 스페인어 댓글 데이터셋을 사용한 실험에서 프롬프트의 작은 변화가 분류 결과에 큰 차이를 가져오는 것으로 나타났으며, 이는 LLM의 신뢰성과 견고성에 대한 의문을 제기하고 사회적, 제도적 맥락을 고려한 책임 있는 활용의 중요성을 강조합니다.

related iamge

소셜 과학의 핵심 질문: 오늘날 소셜 과학의 근본적인 질문 중 하나는 챗GPT와 같은 고도로 복잡한 예측 모델을 얼마나 신뢰할 수 있는가입니다. Jaime E. Cuellar 등 연구진이 진행한 최근 연구는 이 질문에 대한 흥미로운 답을 제시합니다. 연구팀은 프롬프트의 미세한 구조적 변화가 GPT-4o mini를 이용한 감정 극성 분석의 분류 결과에 큰 차이를 가져오는지 여부를 실험했습니다.

10만 개의 스페인어 댓글 분석: 연구팀은 4명의 라틴 아메리카 대통령에 대한 10만 개의 스페인어 댓글 데이터셋을 사용했습니다. GPT-4o mini 모델은 각 댓글을 긍정적, 부정적 또는 중립적으로 분류했으며, 프롬프트는 매번 약간씩 변경되었습니다. 탐색적 및 확인적 분석을 통해 분류 간의 유의미한 차이를 확인했습니다.

놀라운 결과: 연구 결과는 어휘, 구문, 또는 양태의 미세한 변화, 심지어 구조의 부재만으로도 분류 결과가 크게 달라진다는 것을 보여줍니다. 모델은 때때로 범주를 혼합하거나, 원치 않는 설명을 제공하거나, 스페인어가 아닌 다른 언어를 사용하는 등 일관성 없는 응답을 생성했습니다. 카이제곱 검정을 이용한 통계 분석 결과, 프롬프트 간의 대부분의 비교에서 유의미한 차이가 확인되었으며, 언어 구조가 매우 유사한 경우를 제외하고는 모든 경우에 해당합니다.

LLM에 대한 신뢰의 재고: 이러한 결과는 분류 작업에 대한 대규모 언어 모델의 견고성과 신뢰성에 의문을 제기합니다. 프롬프트의 구조화된 문법이 부족할수록 환각(hallucination)의 빈도가 증가하는 것도 명확하게 드러났습니다. 연구진은 LLM에 대한 신뢰는 기술적 성능뿐 아니라 그것의 사용을 뒷받침하는 사회적, 제도적 관계에도 기반한다고 강조합니다. 즉, 단순히 기술의 정확성만이 아니라, 그 기술이 사용되는 맥락과 사회적 영향까지 고려해야 함을 시사합니다.

결론: 이 연구는 LLM의 활용에 있어 신중한 접근과 끊임없는 검증의 필요성을 강조합니다. 단순히 높은 정확도만을 추구하기보다는, 모델의 한계와 사회적 영향을 고려한 책임 있는 활용이 중요합니다. 프롬프트 엔지니어링의 중요성을 다시 한번 일깨워주는 의미있는 연구입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Trusting CHATGPT: how minor tweaks in the prompts lead to major differences in sentiment classification

Published:  (Updated: )

Author: Jaime E. Cuellar, Oscar Moreno-Martinez, Paula Sofia Torres-Rodriguez, Jaime Andres Pavlich-Mariscal, Andres Felipe Mican-Castiblanco, Juan Guillermo Torres-Hurtado

http://arxiv.org/abs/2504.12180v1