AI 과대 광고를 넘어서: 임베딩 vs. 프롬프트 기반 다중 분류


본 연구는 Thumbtack 데이터를 사용한 실험을 통해 임베딩 기반 다중 분류 모델이 LLM 프롬프트 기반 모델보다 정확도, 속도, 비용 면에서 우수함을 입증했습니다. A/B 테스트를 통해 실제 서비스 환경에서도 성능 향상을 확인하여, 독점 데이터셋을 활용하는 다중 분류 문제에 대한 효과적인 접근 방식을 제시합니다.

related iamge

최근 몇 년 동안 생성형 AI의 급속한 발전으로 인해, LLM(대규모 언어 모델) 기반 프롬프트 엔지니어링이 모든 문제에 대한 만병통치약처럼 여겨지고 있습니다. 하지만 과연 그럴까요? Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan 세 연구원의 논문, "Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks"는 이러한 통념에 과감히 도전장을 던집니다.

Thumbtack 데이터를 활용한 실험적 비교

연구팀은 Thumbtack 고객의 홈 서비스 프로젝트 설명(텍스트와 이미지)을 사용하여 다중 분류 문제를 설정했습니다. 목표는 각 프로젝트 설명에 가장 적합한 전문가 분류(예: 수리공, 욕실 개조)를 예측하는 것입니다. 이를 위해 두 가지 접근 방식을 비교했습니다. 첫째는 텍스트와 이미지 임베딩을 기반으로 한 소프트맥스 모델이고, 둘째는 최첨단 LLM을 활용한 프롬프트 기반 접근 방식입니다.

결과는 놀라웠습니다. 임베딩 기반 모델이 LLM 프롬프트 기반 모델보다 정확도가 49.5%나 높았습니다. 이는 텍스트만, 이미지만, 텍스트와 이미지를 모두 사용하는 경우 모두 일관되게 나타났습니다. 뿐만 아니라 임베딩 기반 모델은 더욱 잘 보정된 확률을 제공하여, 실제 서비스 배포 시 사용자 경험 개선에 활용될 수 있습니다. 반면 LLM 프롬프트의 결과는 정보성이 매우 낮았습니다.

속도와 비용 면에서도 월등한 성능

속도와 비용 측면에서도 임베딩 기반 모델의 우월성이 드러났습니다. 이미지 처리 속도는 14배, 텍스트 처리 속도는 81배나 빨랐습니다. 실제 배포 환경을 가정했을 때, 비용은 최대 10배까지 절감될 수 있습니다.

A/B 테스트를 통한 검증

연구팀은 임베딩 기반 모델의 변형 버전을 실제 서비스에 배포하고 A/B 테스트를 실시했습니다. 그 결과 오프라인 분석 결과와 일치하는 성능 향상을 확인했습니다. 이는 임베딩 기반 모델의 실용성과 신뢰성을 입증하는 것입니다.

결론: 과대 광고를 넘어 현실적인 선택을

이 연구는 독점 데이터셋을 활용할 수 있는 다중 분류 문제에서는 임베딩 기반 접근 방식이 압도적으로 우수한 결과를 제공할 수 있음을 보여줍니다. 과학자, 실무자, 엔지니어, 사업가들은 이 연구 결과를 바탕으로 자신들의 분류 작업에 적합한 예측 모델을 신중하게 선택해야 합니다. AI의 과대 광고에 현혹되지 말고, 데이터와 문제의 특성에 맞는 현실적인 접근 방식을 선택하는 것이 중요합니다. 이는 단순한 기술적 선택을 넘어, 효율성과 비용 절감이라는 중요한 사업적 결정으로 이어질 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

Published:  (Updated: )

Author: Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan

http://arxiv.org/abs/2504.04277v1