딥러닝 기반 어눌한 발음 개선 기술: 음성인식 정확도 향상의 새로운 지평


본 연구는 어눌한 발음의 자동 음성 인식(ASR) 성능을 개선하기 위해 리듬과 목소리(RnV) 변환 프레임워크를 확장한 새로운 기술을 제시합니다. 실험 결과, LF-MMI 모델은 어눌한 발음의 단어 오류율을 상당히 감소시켰지만, Whisper 모델은 제한적인 효과를 보였습니다. 이는 비지도 학습 기반 RnV 변환 기술의 잠재력을 보여주는 동시에 추가 연구의 필요성을 시사합니다.

related iamge

딥러닝 기반 어눌한 발음 개선 기술: 음성인식 정확도 향상의 새로운 지평

최근 Karl El Hajal, Enno Hermann, Sevada Hovsepyan, Mathew Magimai. -Doss 연구팀은 어눌한 발음(dysarthric speech)으로 인한 자동 음성 인식(ASR) 시스템의 어려움을 해결하기 위한 획기적인 연구 결과를 발표했습니다. 이들은 리듬과 목소리(Rhythm and Voice, RnV) 변환 프레임워크를 확장, 어눌한 발음을 가진 사람들의 음성을 건강한 사람의 음성으로 변환하는 기술을 개발했습니다.

기존 ASR 시스템은 개인마다 다양한 발화 패턴과 느린 말투로 인해 어눌한 발음을 정확하게 인식하는 데 어려움을 겪어왔습니다. 본 연구는 이러한 문제를 해결하기 위해 음절 기반 리듬 모델링 방법을 도입하여 어눌한 발음의 특징을 보다 효과적으로 파악하고, 이를 바탕으로 음성을 변환하는 데 성공했습니다.

연구팀은 LF-MMI 모델을 훈련하고 Whisper 모델을 미세 조정하여 변환된 음성의 ASR 성능을 평가했습니다. Torgo 코퍼스를 사용한 실험 결과, LF-MMI 모델은 특히 어눌한 발음이 심한 경우 단어 오류율(Word Error Rate)을 상당히 감소시켰습니다. 반면 Whisper 모델의 경우 변환된 데이터로 미세 조정해도 성능 향상에는 제한적인 효과를 보였습니다.

이는 비지도 학습 기반의 리듬 및 목소리 변환 기술이 어눌한 발음 ASR 개선에 상당한 잠재력을 가지고 있음을 시사합니다. 특히 LF-MMI 모델의 성과는 의학적 도움이 필요한 사람들에게 중요한 의미를 가집니다. 연구팀은 관련 코드를 GitHub (https://github.com/idiap/RnV)에 공개하여, 다른 연구자들의 연구 및 발전에 기여하고 있습니다.

이 연구는 단순한 기술적 진보를 넘어, 어눌한 발음으로 어려움을 겪는 사람들의 삶의 질 향상에 기여할 수 있는 잠재력을 지닌 혁신적인 성과라고 평가할 수 있습니다. 앞으로 이 기술이 더욱 발전하여 더욱 다양한 언어와 상황에 적용될 수 있기를 기대합니다.

하지만, Whisper 모델의 경우 변환된 데이터에 대한 미세 조정의 효과가 제한적이었던 점은 향후 연구에서 고려해야 할 부분입니다. 다양한 모델과 데이터셋에 대한 추가 연구를 통해 이 기술의 일반화 가능성을 높이는 것이 중요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech

Published:  (Updated: )

Author: Karl El Hajal, Enno Hermann, Sevada Hovsepyan, Mathew Magimai. -Doss

http://arxiv.org/abs/2506.01618v1