related iamge

멀티모달 대규모 언어 모델의 속도 혁신: 다중 모드 예측 디코딩(MSD)

Lin 등 연구진이 개발한 다중 모드 예측 디코딩(MSD)은 텍스트와 시각 토큰의 특성 차이를 고려한 새로운 멀티모달 대규모 언어 모델(MLLM) 추론 가속화 기법입니다. 두 단계의 훈련 전략을 통해 언어 모델링과 시각적 인식 능력을 모두 향상시켜 LLaVA 모델의 추론 속도를 최대 2.46배까지 높였습니다.

related iamge

혁신적인 중국어 중심 다국어 기계 번역 모델, FuxiMT 등장!

중국 연구진이 개발한 FuxiMT는 희소화된 대규모 언어 모델을 기반으로 한 중국어 중심 다국어 기계 번역 모델로, MoE와 커리큘럼 학습 전략을 통해 저자원 환경에서도 뛰어난 성능과 제로샷 번역 능력을 보여줍니다.

related iamge

딥러닝으로 공정 모니터링의 혁신을 이끌다: 하이브리드 적응형 모델링의 등장

본 논문은 시퀀스 인코더와 물리 정보 신경망(PINN)을 결합한 하이브리드 모델을 제시하여 변화하는 조건에도 실시간으로 적응하는 AI 기반 공정 모니터링 시스템을 구축했습니다. Rossler ODE 시스템, 2D Navier-Stokes PDE 문제, 1D 열 모니터링 문제 등 다양한 실험을 통해 모델의 강인성과 일반화 능력을 검증했습니다. 데이터 효율성과 일반화 능력 향상으로 실제 산업 현장 적용 가능성을 높였습니다.

related iamge

이미지로 사고하는 AI: Visual-ARFT로 진화하는 대규모 시각 언어 모델

본 기사는 중국 연구진이 개발한 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) 기술을 소개합니다. Visual-ARFT는 대규모 시각 언어 모델(LVLMs)의 에이전트 능력을 향상시켜 웹 검색 및 이미지 처리 코드 작성 능력을 부여합니다. 새로운 벤치마크 MAT를 통해 평가한 결과, Visual-ARFT는 기존 모델들을 능가하는 성능을 보였으며, 멀티모달 에이전트 기술 발전에 중요한 의미를 지닌다고 평가됩니다.

related iamge

ABBA: 대규모 언어 모델의 표현력을 극대화하는 혁신적인 방법

ABBA는 기존 PEFT 방법들의 한계를 극복한 혁신적인 대규모 언어 모델 미세 조정 방법으로, 독립적인 저순위 행렬의 Hadamard product를 통해 높은 표현력과 효율성을 달성합니다. 실험 결과 기존 방법들을 능가하는 성능을 보이며 LLM의 발전에 크게 기여할 것으로 기대됩니다.