related iamge

ViTA-PAR: 보행자 속성 인식을 위한 시각 및 텍스트 속성 정렬

국내 연구진이 개발한 ViTA-PAR 모델은 시각 및 텍스트 정보를 결합하여 보행자 속성 인식의 정확도를 향상시켰습니다. GitHub를 통해 코드와 모델을 공개하여 연구의 재현성을 높였으며, 향후 다양한 분야에서 활용될 가능성이 높습니다.

related iamge

흐름도로 코드 생성? AI의 새로운 도전: Flow2Code 벤치마크 등장!

본 기사는 흐름도 기반 코드 생성 능력 평가를 위한 새로운 벤치마크 Flow2Code에 대해 소개합니다. 15개의 프로그래밍 언어와 다양한 유형의 흐름도를 포함하는 방대한 데이터셋과, 13개의 다중 모달 LLM을 이용한 실험 결과를 바탕으로 현재 LLM의 한계와 지도 학습 기법의 효과를 분석합니다. Flow2Code의 공개를 통해 흐름도 기반 코드 생성 분야의 발전에 기여할 것으로 예상됩니다.

related iamge

꿈꾸는 로봇의 비밀: 효율적인 시각적 월드 모델 계획

춘준하, 정영준, 김태섭 연구팀의 '스파스 이매지네이션' 기반 시각적 월드 모델 계획 연구는 로봇의 실시간 의사결정 능력 향상에 중요한 진전을 가져왔습니다. 임의 그룹화 어텐션 전략을 통해 계산 효율을 높이고, 실제 로봇 적용 가능성을 열었습니다.

related iamge

AgentCPM-GUI: 모바일 혁신을 위한 80억 파라미터의 지능형 GUI 에이전트 등장!

중국 연구진이 개발한 80억 파라미터의 GUI 에이전트 AgentCPM-GUI는 모바일 환경에서의 지능형 상호작용을 혁신적으로 개선합니다. 다국어 지원 및 강화 학습 기반의 훈련 파이프라인을 통해 기존의 한계를 극복하고, 다양한 벤치마크에서 최첨단 성능을 달성했습니다. 공개된 코드와 데이터는 향후 연구의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

VRD-IU 경진대회: 시각적으로 풍부한 문서 지능의 새로운 지평

VRD-IU 경진대회는 시각적으로 풍부한 문서 이해(VRDU) 분야의 발전을 가속화하는 중요한 이정표입니다. 다양한 형태의 양식 문서를 대상으로 진행된 이 경진대회는 최첨단 기술들을 활용한 참가팀들의 경쟁을 통해 VRDU 기술의 새로운 벤치마크를 제시하고, 향후 연구 방향을 제시하는 데 기여했습니다.