related iamge

흩어진 조각들로부터 재구성되는 위험: VLMs의 시각적 연결 취약성

본 기사는 Zhou Zhanhui 등 연구진의 최근 연구를 바탕으로, 대규모 비전-언어 모델(VLMs)의 '시각적 연결(visual stitching)' 취약성을 분석합니다. 이 취약성은 유해한 이미지를 작은 조각으로 나누어 학습 데이터에 삽입함으로써, 모델이 유해한 콘텐츠를 재구성하는 것을 가능하게 하며, 기존 데이터 정제 방식을 우회하는 새로운 위협으로 제기됩니다. 연구는 오픈소스 VLMs를 활용한 실험을 통해 이러한 위협의 현실성을 입증하며, AI 모델의 안전성 확보를 위한 새로운 접근 방식의 필요성을 강조합니다.

related iamge

다양한 형태의 로봇에 적용 가능한 AI 에이전트 훈련의 혁신: 이론과 실제의 만남

본 논문은 다양한 형태의 로봇에 적용 가능한 AI 에이전트 훈련의 어려움을 이론적으로 규명하고, 이를 극복하기 위한 새로운 분산 학습 방식을 제시합니다. 이론적 증명과 실제적인 해결책을 제시하며, 구현 코드를 공개하여 다른 연구자들의 활용을 돕고 있습니다.

related iamge

Orak: 게임 산업의 미래를 바꿀 LLM 에이전트 벤치마크

크래프톤 AI 팀이 개발한 Orak 벤치마크는 12개의 다양한 게임을 활용하여 LLM 에이전트를 훈련하고 평가하는 혁신적인 플랫폼입니다. MCP 인터페이스와 미세 조정 데이터셋을 제공하며, 포괄적인 평가 프레임워크를 통해 범용 게임 에이전트 개발을 위한 기반을 마련합니다.

related iamge

엣지 AI의 혁신: 트랜스포머와 지식 증류로 가능해진 실시간 이미지 캡셔닝

본 기사는 엣지 AI 환경에서 트랜스포머 기반 이미지 캡셔닝 모델의 효율적인 구현을 위한 연구 결과를 소개합니다. 연구진은 지식 증류 기법을 활용하여 제한된 자원에서도 높은 성능을 유지하며 추론 속도를 향상시키는 방법을 제시했습니다. 이는 산업 자동화, 로봇 공학 등 다양한 분야에 혁신적인 발전을 가져올 것으로 기대됩니다.

related iamge

인도 북동부 저자원 언어의 음조 인식: SSL 기반 음성 모델의 심층 분석

본 연구는 인도 북동부 저자원 언어의 음조 인식을 위해 자기 지도 학습(SSL) 기반 음성 모델을 활용하여 높은 성능을 달성하였습니다. 특히 SSL 모델의 중간 레이어가 음조 인식에 중요하며, 음조 목록, 음조 유형, 방언 변이가 성능에 영향을 미친다는 것을 밝혔습니다. GitHub를 통해 공개된 소스 코드는 향후 연구에 기여할 것으로 기대됩니다.