챗GPT로 앱 리뷰 분석의 새 지평을 열다: 제로샷 학습의 도전과 가능성


본 연구는 ChatGPT를 활용한 제로샷 학습이 앱 리뷰 분류에 효과적임을 보여주는 연구 결과를 소개합니다. 1,880개의 앱 리뷰를 대상으로 진행된 실험에서 ChatGPT는 높은 F1 점수(0.842)를 달성했습니다. 리뷰 가독성과 길이가 정확도에 미치는 영향과 오분류 원인에 대한 분석도 포함되어 있습니다.

related iamge

앱 리뷰는 앱의 성능, 기능, 사용성, 전반적인 사용자 경험에 대한 귀중한 통찰력을 제공하는 중요한 사용자 피드백의 원천입니다. 이러한 리뷰를 효과적으로 분석하는 것은 앱 개발을 안내하고, 기능 업데이트의 우선 순위를 정하고, 사용자 만족도를 높이는 데 필수적입니다.

특히, 기능적 요구사항과 비기능적 요구사항으로 리뷰를 분류하는 것은 앱의 특정 기능(기능적 요구사항)과 관련된 피드백과 성능, 사용성, 신뢰성과 같은 광범위한 품질 속성(비기능적 요구사항)에 대한 피드백을 구분하는 데 중요한 역할을 합니다. 두 범주 모두 정보에 입각한 개발 결정에 필수적입니다.

하지만 기존의 앱 리뷰 분류 방식은 방대한 도메인별 데이터셋이 필요하다는 어려움이 있습니다. 이러한 데이터셋을 만드는 것은 비용과 시간이 많이 소요됩니다.

Mohit Chaudhary, Chirag Jain, Preethu Rose Anish 세 연구원이 진행한 최근 연구는 이러한 문제에 대한 해결책으로 ChatGPT를 활용한 제로샷 학습을 제시합니다. 이 연구에서는 ChatGPT를 사용하여 앱 리뷰를 기능적 요구사항, 비기능적 요구사항, 둘 다, 둘 다 아님의 네 가지 범주로 분류하는 잠재력을 탐구했습니다.

연구팀은 10개의 다양한 앱에서 수집한 1,880개의 수동으로 주석이 달린 리뷰로 구성된 벤치마크 데이터셋을 사용하여 ChatGPT의 성능을 평가했습니다. 그 결과, ChatGPT는 특정 과제와 한계에도 불구하고 0.842의 강력한 F1 점수를 달성했습니다.

뿐만 아니라, 리뷰의 가독성 및 길이가 분류 정확도에 미치는 영향을 분석하고, 수동 분석을 통해 오분류되기 쉬운 리뷰 범주를 파악했습니다. 이 연구는 챗GPT 기반 제로샷 학습을 통해 앱 리뷰 분석의 효율성을 크게 높일 수 있음을 시사합니다. 앞으로 더욱 발전된 AI 기술을 통해 앱 개발 과정 전반에 걸쳐 사용자 피드백을 더욱 효과적으로 활용할 수 있는 가능성을 제시하는 흥미로운 연구입니다. 그러나, 오분류 가능성을 줄이고 정확도를 더욱 높이기 위한 지속적인 연구가 필요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Exploring Zero-Shot App Review Classification with ChatGPT: Challenges and Potential

Published:  (Updated: )

Author: Mohit Chaudhary, Chirag Jain, Preethu Rose Anish

http://arxiv.org/abs/2505.04759v1