
RAG 기반 LLM 추론 속도 혁신: 공유 디스크 KV 캐시 관리 시스템 등장!
소강대학교와 ETRI 공동 연구팀이 RAG 기반 LLM의 추론 속도를 획기적으로 향상시키는 Shared RAG-DCache 시스템을 개발했습니다. 디스크 기반 KV 캐시를 활용하여 처리량을 1571%, 지연 시간을 최대 1265%까지 줄였으며, 이는 LLM 기반 서비스의 효율성을 크게 높이는 혁신적인 성과입니다.

3D 객체 분할의 혁신: GrabS 알고리즘의 등장
Zhang, Yang, Wen, Yang 연구팀은 3D 객체 분할을 위한 새로운 알고리즘 GrabS를 개발했습니다. GrabS는 기존 비지도 학습의 한계를 극복하고, 두 단계 파이프라인을 통해 높은 정확도를 달성했습니다. 실제 및 합성 데이터셋에서 기존 방법들을 압도적인 성능 차이로 능가했습니다.

혁신적인 AI 추론 최적화: CPU-GPU 결합 아키텍처의 새로운 지평
본 기사는 대규모 언어 모델(LLM) 추론 작업 부하의 CPU-GPU 결합 아키텍처 최적화에 대한 최신 연구 결과를 소개합니다. GH200 시스템의 우수한 성능과 함께 CPU 바운드 현상 및 커널 융합의 중요성을 강조하며, 향후 AI 추론 성능 향상을 위한 연구 방향을 제시합니다.

놀라운 AI의 수학적 추론 능력: 계단을 오르는 여정
본 연구는 SFT를 통한 AI의 수학적 추론 능력 향상에 대한 분석 결과를 제시합니다. 문제 난이도의 계단식 구조를 발견하고, 각 단계별 요구사항과 한계를 규명하여 AI 발전을 위한 로드맵을 제시합니다. 단순히 데이터셋 크기 확장보다 전략적 접근이 중요함을 강조합니다.

양자 컴퓨팅의 혁명: 강화 학습으로 최적화된 하드웨어 공동 설계
Qian Ding과 Dirk Englund 연구팀은 강화 학습 기반 하드웨어 공동 설계를 통해 양자 컴퓨팅의 정밀 제어 문제를 해결, 99.9% 이상의 게이트 충실도를 달성하는 획기적인 성과를 거두었습니다. 이는 양자 컴퓨터의 실용화를 앞당길 중요한 발전입니다.