related iamge

DisCO: 차별적 제약 최적화를 통한 대규모 추론 모델 강화

본 기사는 Gang Li 등 연구진이 발표한 DisCO(차별적 제약 최적화) 프레임워크에 대한 내용을 다룹니다. DisCO는 기존 GRPO 방식의 한계를 극복하고, 질문 난이도 편향 문제와 엔트로피 불안정성 문제를 해결하여 대규모 추론 모델의 성능 향상에 기여하는 새로운 강화 학습 기법입니다. 실험 결과, DisCO는 GRPO 및 DAPO보다 우수한 성능을 보였습니다.

related iamge

시각 공간 지능의 혁신: ViCA2의 등장

Kyoto University와 RIKEN 연구팀이 개발한 ViCA2는 시각 공간 인지 능력을 획기적으로 향상시킨 MLLM입니다. SigLIP과 Hiera를 결합한 독특한 아키텍처와 32만 2천 개 이상의 데이터셋 ViCA-322K를 통해 VSI-Bench 벤치마크에서 최고 성능을 달성했습니다. 모델과 데이터셋 공개를 통해 시각 공간 인지 분야의 발전에 크게 기여할 것으로 기대됩니다.

related iamge

혁신적인 사족 보행 로봇 제어 기술 등장: 주기적 외란에도 흔들림 없는 보행

러시아 연구팀이 주기적 외란에도 안정적인 사족 보행 로봇 제어 기술을 개발했습니다. 경량 회귀자를 이용한 주기적 외란 추정 및 오픈소스 공개를 통해, 기존 기술 대비 성능 향상 및 기술 확산에 기여할 것으로 기대됩니다.

related iamge

AbFlowNet: 항체-항원 결합 에너지 최적화의 혁신

AbFlowNet은 GFlowNet과 확산 모델을 융합하여 항체-항원 결합 에너지를 효율적으로 최적화하는 혁신적인 생성 모델입니다. 기존 방식의 한계를 극복하고 아미노산 회복률, 기하학적 재구성, 결합 에너지 개선 등에서 괄목할 만한 성능 향상을 달성했습니다.

related iamge

안전성을 보장하는 혁신적인 강화학습 래퍼 등장!

러시아 연구팀이 개발한 범용 정책 래퍼는 기존 강화학습 알고리즘의 안전성 문제를 해결하고, 성능과 안전성을 동시에 보장하는 혁신적인 기술입니다. 추가적인 시스템 지식이나 온라인 제약 최적화 없이도 다양한 분야에 적용 가능하며, AI 안전성 확보에 중요한 전기를 마련할 것으로 기대됩니다.