생성형 AI 검색과 신뢰: 대규모 실험이 밝힌 놀라운 진실
Li와 Aral의 연구는 대규모 실험을 통해 생성형 AI 검색에 대한 인간의 신뢰도를 분석하고, 참고 링크와 인용, 불확실성 강조, 사회적 피드백 등이 신뢰도에 미치는 영향을 밝혔습니다. 특정 집단의 GenAI 오류 정보 취약성과 신뢰도와 행동 간의 상관관계도 제시하며, 안전하고 생산적인 AI 디자인 방향을 제시합니다.

생성형 AI 검색과 신뢰: 대규모 실험이 밝힌 놀라운 진실
최근 생성형 AI 검색 엔진이 급속도로 발전하면서 우리의 정보 탐색 방식과 의사결정에 큰 영향을 미치고 있습니다. 하지만, 과연 우리는 생성형 AI를 얼마나 신뢰할 수 있을까요? Li와 Aral이 이끄는 연구팀은 7개국에서 12,000건 이상의 검색 쿼리를 분석하고, 미국 인구를 대표하는 대규모 표본을 대상으로 무작위 실험을 실시하여 이 질문에 답을 찾고자 했습니다.
놀라운 결과들: 신뢰의 역설
연구 결과는 흥미로운 역설을 드러냅니다. 참가자들은 평균적으로 기존 검색 엔진보다 생성형 AI 검색 엔진을 덜 신뢰했습니다. 하지만, 놀랍게도 잘못된 정보나 환각 정보를 포함하더라도 참고 링크와 인용을 제공하면 생성형 AI에 대한 신뢰도가 높아지는 것으로 나타났습니다. 이는 마치 허점을 알면서도 그럴듯한 이야기에 속는 것과 유사한 현상입니다.
반대로, AI의 신뢰도를 명시적으로 보여주는 ‘불확실성 강조’는 신뢰도를 낮추는 효과를 보였습니다. AI의 확신 수준이 높든 낮든 상관없이, 그 확신 수준을 명확히 제시하면 사람들은 생성형 정보를 덜 신뢰하고 공유하려는 경향을 보였습니다. 또한, 긍정적인 사회적 피드백은 신뢰도를 높였지만, 부정적인 피드백은 신뢰도를 낮췄습니다.
신뢰의 편향: 취약한 집단은 누구?
흥미롭게도, GenAI에 대한 신뢰도는 주제, 사용자의 인구통계학적 특징(나이, 성별 등), 교육 수준, 직업, GenAI 사용 경험 등에 따라 달라졌습니다. 특정 집단은 GenAI의 잘못된 정보에 더 취약할 수 있다는 것을 시사합니다. 실제로, GenAI를 더 신뢰하는 사람들은 검색 결과를 더 많이 클릭하고 결과를 평가하는 데 시간을 덜 소비하는 경향을 보였습니다.
앞으로의 과제: AI 신뢰도의 격차 해소
이 연구는 생성형 AI 디자인이 부정확하고 환각적인 정보에 대한 신뢰도를 높이고, AI의 불확실성을 명확히 밝힐 때 신뢰도를 낮추는 방식으로 작용할 수 있음을 보여줍니다. 이러한 결과는 안전하고 생산적으로 AI의 “신뢰도 격차”를 해소하기 위한 GenAI 디자인 방향을 제시합니다. 앞으로 생성형 AI의 발전과 함께 신뢰도 문제에 대한 지속적인 연구와 윤리적 고찰이 필요한 시점입니다.
Reference
[arxiv] Human Trust in AI Search: A Large-Scale Experiment
Published: (Updated: )
Author: Haiwen Li, Sinan Aral
http://arxiv.org/abs/2504.06435v1