웹페이지 이해의 혁신: RegionFocus로 GUI 에이전트 정확도 28%↑
Luo 등의 연구는 RegionFocus라는 시각적 테스트 시간 스케일링 기법을 통해 GUI 에이전트의 웹페이지 이해 능력을 크게 향상시켰습니다. 이미지-맵 메커니즘을 활용하여 에이전트의 의사결정 과정을 투명하게 만들고, ScreenSpot-Pro 벤치마크에서 최첨단 성능을 달성했습니다.

최근, Luo, Logeswaran, Johnson, Lee 등이 발표한 논문 "Visual Test-time Scaling for GUI Agent Grounding"은 웹페이지 이해 분야에 혁신적인 돌파구를 제시했습니다. 웹페이지는 복잡한 시각적 요소들과 방대한 인터페이스로 인해 AI 에이전트가 정확한 동작을 선택하는 데 어려움을 겪는 영역입니다.
이 연구팀은 이 문제를 해결하기 위해 RegionFocus라는 새로운 시각적 테스트 시간 스케일링 기법을 제안했습니다. RegionFocus는 관련 영역을 동적으로 확대하여 배경의 잡음을 줄이고, 에이전트의 정확도를 높이는 데 초점을 맞춥니다. 이는 마치 현미경으로 중요한 부분을 확대하여 자세히 관찰하는 것과 같습니다.
특히, 연구팀이 제안한 이미지-맵 메커니즘은 각 단계에서 중요한 랜드마크를 시각화하여 에이전트의 액션 선택 과정을 투명하게 보여줍니다. 이는 에이전트가 여러 액션 후보 중에서 효과적으로 선택할 수 있도록 돕는 핵심 기능입니다. 이는 블랙박스처럼 작동하는 기존 모델과 달리, 에이전트의 의사결정 과정을 명확하게 이해할 수 있게 해줍니다.
놀랍게도, 단순한 영역 선택 전략만으로도 기존 최첨단 모델인 UI-TARS와 Qwen2.5-VL의 성능을 Screenspot-pro에서 28% 이상, WebVoyager에서 24% 이상 향상시켰습니다. 이는 RegionFocus의 효과를 명확하게 보여주는 결과입니다. 더 나아가, Qwen2.5-VL-72B 모델에 RegionFocus를 적용하여 ScreenSpot-Pro 벤치마크에서 **61.6%**라는 최첨단 성능을 달성했습니다. 이는 기존 기술을 훨씬 뛰어넘는 성과입니다.
연구팀은 RegionFocus 코드를 공개적으로 공유하여 (https://github.com/tiangeluo/RegionFocus) 다른 연구자들의 활용을 지원하고 있습니다. 이 연구는 웹페이지 이해 분야의 발전에 크게 기여할 뿐만 아니라, 더욱 정교하고 효율적인 AI 에이전트 개발에 중요한 전기를 마련할 것으로 기대됩니다. RegionFocus는 단순한 기술 개선을 넘어, AI 에이전트의 투명성과 효율성을 동시에 향상시킨 획기적인 연구로 평가받을 만합니다.
Reference
[arxiv] Visual Test-time Scaling for GUI Agent Grounding
Published: (Updated: )
Author: Tiange Luo, Lajanugen Logeswaran, Justin Johnson, Honglak Lee
http://arxiv.org/abs/2505.00684v1