천 개의 목소리, 외상(Trauma)의 AI 모델링: 'Thousand Voices of Trauma' 데이터셋 공개
Suhas BN 등 연구진이 개발한 'Thousand Voices of Trauma' 데이터셋은 PTSD 치료를 위한 AI 모델 개발에 중요한 자원으로, 3,000개 이상의 합성 치료 대화 데이터와 다양한 인구통계학적 특징을 포함하여 현실적인 시나리오를 제공합니다. 임상 전문가 검증을 거쳐 치료적 타당성을 확보했으며, 개인정보 보호를 고려한 합성 데이터를 사용하여 윤리적 문제를 해결했습니다.

AI가 정신 건강의 미래를 엿보다: 'Thousand Voices of Trauma' 데이터셋
최근, AI 기반 정신 건강 지원 시스템 개발에 대한 관심이 높아지고 있습니다. 하지만, 특히 외상 후 스트레스 장애(PTSD) 치료와 같은 민감한 영역에서는 치료 대화 데이터 접근에 어려움이 있어 AI 모델 개발이 제한적이었습니다. 이러한 문제를 해결하기 위해 Suhas BN 등 6명의 연구자는 'Thousand Voices of Trauma' 라는 대규모 합성 데이터셋을 개발했습니다.
3,000개의 치료 대화, 500명의 이야기:
이 데이터셋은 PTSD 치료에 사용되는 연장 노출 요법(Prolonged Exposure therapy) 프로토콜을 기반으로, 3,000개 이상의 치료 대화를 포함합니다. 놀라운 점은, 이 대화들이 단순히 반복적인 것이 아니라, 500명의 개별 사례를 6가지 관점에서 묘사한다는 것입니다. 초기 불안에서 최고조의 고통, 그리고 감정 처리에 이르기까지 치료 과정의 전 과정을 담고 있습니다.
다양성과 현실성의 조화:
연구팀은 데이터셋의 현실성을 높이기 위해 다양한 노력을 기울였습니다. 18세에서 80세까지의 다양한 연령대(평균 49.3세), 남성 49.4%, 여성 44.4%, 비이성애자 6.2% 등 다양한 성별 및 성적 지향, 그리고 20가지 유형의 외상 경험과 10가지 외상 관련 행동을 포함시켰습니다. 결과적으로, 폭력 목격(10.6%), 괴롭힘(10.2%)과 같은 현실적인 외상 유형 분포와 악몽(23.4%), 약물 남용(20.8%) 등의 증상 분포를 보여줍니다. 결정론적 및 확률적 생성 방법을 사용하여 데이터를 생성했으며, 임상 전문가의 검증을 거쳐 치료적 타당성을 확보했습니다.
모델 평가를 위한 새로운 기준:
더 나아가, 연구팀은 모델의 반응을 평가하기 위한 표준화된 지표를 포함한 감정 궤적 벤치마크도 개발했습니다. 이는 AI 모델의 성능을 객관적으로 평가하고 개선하는 데 중요한 기여를 할 것입니다.
미래를 위한 희망의 데이터셋:
'Thousand Voices of Trauma' 데이터셋은 개인 정보 보호에 중점을 두고 합성 데이터를 사용하여 윤리적 문제를 해결하고 데이터 접근성을 향상시켰습니다. 이는 환자를 위한 AI 기반 응용 프로그램 개발과 임상의 교육 도구 개발에 중요한 자원이 될 것입니다. 이 데이터셋을 통해 AI가 정신 건강 분야에서 더욱 발전하고, 더 많은 사람들에게 도움을 줄 수 있기를 기대합니다.
Reference
[arxiv] Thousand Voices of Trauma: A Large-Scale Synthetic Dataset for Modeling Prolonged Exposure Therapy Conversations
Published: (Updated: )
Author: Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill
http://arxiv.org/abs/2504.13955v2