related iamge

MoLe-VLA: 효율적인 로봇 조작을 위한 혁신적인 비전-언어-행동 모델

본 논문은 효율적인 로봇 조작을 위한 혁신적인 비전-언어-행동 모델인 MoLe-VLA를 제시합니다. 신경과학적 통찰력을 바탕으로 계층 선택적 활성화 기법을 도입하여 계산 비용을 최대 5.6배 절감하면서도 작업 성공률을 8% 향상시켰습니다.

related iamge

멀티모달 정보 검색 및 생성의 혁신: MRAG의 등장

Lang Mei, Siyu Mo, Zhihan Yang, Chong Chen 연구팀의 논문 "A Survey of Multimodal Retrieval-Augmented Generation"은 멀티모달 데이터를 활용한 MRAG(Multimodal Retrieval-Augmented Generation)의 등장과 그 중요성을 조명합니다. MRAG는 기존 RAG의 한계를 극복하고, 환각 현상 감소 및 사실적인 응답 생성을 가능하게 하여 멀티모달 정보 검색 및 생성 분야의 혁신을 이끌 것으로 기대됩니다.

related iamge

혁신적인 다국어 요약 평가: BASSE 데이터셋과 LLM 심사 모델의 놀라운 결과

본 연구는 스페인어와 바스크어에 대한 새로운 요약 평가 데이터셋 BASSE를 소개하고, 다양한 LLM 심사 모델의 성능을 비교 분석했습니다. 독점 모델 LLM의 우수한 성능과 오픈소스 모델의 한계가 드러났으며, BASSE 데이터셋의 공개를 통해 다국어 요약 평가 연구의 발전에 기여할 것으로 기대됩니다.

related iamge

멀티모달 표현 학습의 혁신: CALM 모델의 등장

신정규, 김범수, 김은우 연구팀이 개발한 CALM 모델은 클래스 확률 분포를 활용한 혁신적인 다중 모달 표현 학습 방법으로, 기존의 한계를 극복하고 우수한 성능과 일반화 능력을 보여줍니다. 교차 모달 확률적 변분 오토인코더를 활용하여 불확실성을 모델링하고, 다양한 데이터셋에서 최고 성능을 기록하며 다중 모달 이해 분야의 새로운 가능성을 제시합니다.

related iamge

맥락 기반 사용자 프로파일링을 통한 개인화된 대화형 판매 에이전트: 전략적 행동을 향하여

본 연구는 기존 대화형 추천 시스템의 한계를 넘어, 사용자의 선호도 파악, 추천, 설득을 통합한 '대화형 판매(CSales)'라는 새로운 개념을 제시하고, 실제 데이터 기반의 LLM 기반 사용자 시뮬레이터 CSUser와 맥락 정보 기반의 개인화된 대화형 판매 에이전트 CSI를 개발하여 실험을 통해 그 효과를 검증했습니다.