related iamge

혁신적인 보상 모델 PURM: RLHF의 미래를 엿보다

Sun 등(2025)의 연구는 확률적 불확실 보상 모델(PURM)을 제시하여 RLHF에서의 보상 해킹 문제를 해결합니다. PURM은 브래들리-테리 모델의 일반화로 불확실성을 직접 모델링하며, 불확실성 인식 페널티를 통해 보상 최적화와 탐색의 균형을 조절합니다. 실험 결과, PURM은 기존 방법보다 우수한 성능을 보였습니다.

related iamge

더 크게가 아닌 더 오래 생각하기: 테스트 시간 연산 확장을 통한 소프트웨어 엔지니어링 에이전트 성능 향상

본 기사는 소프트웨어 엔지니어링 에이전트의 성능 향상을 위한 새로운 접근법인 'Test-Time Compute(TTC) 확장 프레임워크'에 대한 연구 결과를 소개합니다. 기존의 대규모 모델에 의존하는 방식 대신, 추론 시간 연산을 확장하여 32B 모델이 671B 모델을 능가하는 성능을 달성한 사실과 그 의미를 분석합니다. 또한, 연구팀의 오픈소스 공개를 통해 향후 연구 발전에 대한 기대감을 높입니다.

related iamge

중국 AI 모델, 과연 중국어를 잘 할까요? 🤔 소수민족 언어 지원의 실태 조사

본 연구는 중국과 서구의 오픈소스 LLM을 비교 분석하여 중국 모델의 언어 지원 현황을 평가했습니다. 중국 모델은 만다린 중국어에는 뛰어나지만, 소수민족 언어에는 취약한 모습을 보였습니다. 이는 중국 AI 개발의 우선순위와 정책적 함의를 시사하며, 소수민족 언어에 대한 지원 강화와 포괄적인 언어 정책의 필요성을 강조합니다.

related iamge

자율주행차 안전성의 혁신: 극한 상황 시나리오 자동 생성 프레임워크 CORTEX-AVD

본 기사는 자율주행 자동차의 안전성 확보를 위해 극한 상황(Corner Cases) 시나리오를 자동 생성하는 CORTEX-AVD 프레임워크에 대한 연구 결과를 소개합니다. CORTEX-AVD는 유전 알고리즘과 다중 요소 적합도 함수를 활용하여 시뮬레이션 효율성을 높이고, 개방형 소스로 제공되어 자율주행 기술 발전에 기여할 것으로 기대됩니다.

related iamge

혼합 크리티컬리티 시스템 스케줄링의 혁명: 강화학습의 약진

본 논문은 강화학습을 이용한 혼합 크리티컬리티 시스템 스케줄링의 혁신적인 개선 방안을 제시하며, 실험 결과를 통해 그 효율성과 확장성을 검증합니다. 고크리티컬 작업의 완료율을 크게 향상시키고 전반적인 시스템 성능을 개선하여 실시간 및 안전 중요 응용 분야에 큰 기여를 할 것으로 기대됩니다.