
어텐션 없는 추론의 확장: 새로운 AI 모델의 등장
Zhao, Wu, Kong 등 연구진이 발표한 "Scaling Reasoning without Attention" 논문은 어텐션 메커니즘이 없는 새로운 언어 모델을 제시합니다. Mamba-2의 SSD 계층을 기반으로, 고정 메모리, 상수 시간 추론을 가능하게 하여 효율성을 높였으며, PromptCoT 기반 2단계 커리큘럼 파인튜닝을 통해 성능을 향상시켰습니다. 실험 결과, 7B 매개변수 모델이 기존 대규모 모델들을 능가하는 성능을 보였습니다.

대규모 추론 모델의 '과도한 사고' 문제 해결: 다양체 조향(Manifold Steering)의 등장
Yao Huang 등 연구진이 발표한 논문 "Mitigating Overthinking in Large Reasoning Models via Manifold Steering"은 대규모 추론 모델의 과도한 사고 문제를 해결하기 위한 새로운 방법인 '다양체 조향'을 제시합니다. 이 방법은 모델 활성화 공간의 저차원 다양체에 초점을 맞춰 효율성을 높이며, 다양한 작업에서 우수한 성능을 보입니다.

혁신적인 AI 챗봇: 공공 교통 데이터 분석의 새로운 지평을 열다
본 연구는 LLM 기반 에이전트 챗봇을 활용하여 공공 교통 데이터 분석 및 의사결정 지원 시스템을 개발하고, 그 성능을 체계적으로 평가한 연구입니다. SQL 쿼리 실행, 데이터 시각화 등의 기능을 통해 사용자 편의성을 높였으며, 데이터 기반의 엄격한 평가 방법론을 제시하여 AI 시스템 개발에 중요한 시사점을 제공합니다.

물리 법칙을 따르는 AI 이미지 생성의 혁신: PIDDM의 등장
장이와 조우 연구팀이 개발한 PIDDM은 확산 모델을 이용한 물리 시스템 모델링의 한계를 극복하는 획기적인 방법입니다. 후처리 증류를 통해 젠슨의 갭 문제를 해결하고, 다양한 PDE 벤치마크에서 기존 방법 대비 향상된 성능과 효율성을 입증했습니다.

딥러닝 혁신: 다중 도메인 데이터셋 응축 기술의 등장
최재현 등 연구원팀이 개발한 다중 도메인 데이터셋 응축(MDDC) 기술은 도메인 인식 모듈(DAM)과 주파수 기반 의사 도메인 라벨링을 통해 다중 도메인 상황에서 딥러닝 모델의 성능을 향상시키는 획기적인 방법입니다. 기존 데이터셋 응축 방법의 한계를 극복하고 다양한 분야에서 활용될 것으로 기대됩니다.