related iamge

딥러닝 기반 어눌한 발음 개선 기술: 음성인식 정확도 향상의 새로운 지평

본 연구는 어눌한 발음의 자동 음성 인식(ASR) 성능을 개선하기 위해 리듬과 목소리(RnV) 변환 프레임워크를 확장한 새로운 기술을 제시합니다. 실험 결과, LF-MMI 모델은 어눌한 발음의 단어 오류율을 상당히 감소시켰지만, Whisper 모델은 제한적인 효과를 보였습니다. 이는 비지도 학습 기반 RnV 변환 기술의 잠재력을 보여주는 동시에 추가 연구의 필요성을 시사합니다.

related iamge

멀티모달 LLM 에이전트의 신뢰성 문제: MLA-Trust 벤치마크 등장

본 기사는 멀티모달 LLM 에이전트(MLA)의 신뢰성 문제와 이를 평가하기 위한 새로운 벤치마크인 MLA-Trust에 대해 다룹니다. 연구 결과, GUI 상호 작용 MLA는 정적 MLLM보다 신뢰성 위험이 크고, 다단계 상호 작용은 예측 불가능한 위험을 야기할 수 있음을 보여줍니다. MLA-Trust는 진실성, 제어 가능성, 안전성, 개인 정보 보호의 네 가지 측면에서 MLA의 신뢰성을 평가하는 포괄적인 프레임워크입니다.

related iamge

딥러닝으로 비트코인 확장성의 한계를 극복하다: UTXO 기반 블록체인의 혁신적인 효율화

본 기사는 머신러닝을 활용하여 UTXO 기반 블록체인의 확장성 문제를 해결한 새로운 연구에 대해 소개합니다. 기존 방식의 한계를 극복하는 혁신적인 접근법과 그 기대 효과를 상세히 다룹니다.

related iamge

EPFL-Smart-Kitchen-30: 요리하는 인간 행동의 비밀을 풀다

EPFL-Smart-Kitchen-30 데이터셋은 다양한 센서를 활용하여 16명의 참가자의 29.7시간 분량의 요리 과정을 밀도 있게 기록한 대규모 데이터셋입니다. 이 데이터셋을 기반으로 제시된 4가지 벤치마크는 AI 모델의 발전과 인간 행동 이해 연구에 중요한 기여를 할 것으로 기대됩니다.

related iamge

딥페이크 오디오의 기원을 밝히다: 딥 메트릭 학습과 Conformer 네트워크 기반 앙상블 융합 접근법

본 연구는 AI 기반 오디오 딥페이크의 생성 원천을 추적하는 새로운 시스템을 제안합니다. 딥 메트릭 학습, Conformer 네트워크, 앙상블 융합 기법을 통해 기존 시스템보다 우수한 성능을 달성, 딥페이크 기술의 악용 방지 및 안전한 디지털 환경 구축에 기여할 것으로 기대됩니다.