웹 데이터 추출의 혁신: BardeenAgent의 등장
본 기사는 Arth Bohra 등이 개발한 BardeenAgent가 기존 LLM 및 웹 에이전트의 한계를 극복하고 웹 데이터 추출 성능을 크게 향상시킨 연구 결과를 소개합니다. WebLists 벤치마크를 통해 검증된 BardeenAgent는 실행 과정을 반복 가능한 프로그램으로 변환하고 HTML 구조를 활용하여 효율성과 정확성을 높였습니다.

최근 웹 에이전트 연구는 주로 웹페이지 탐색과 거래에 초점을 맞춰왔습니다. 하지만 대규모로 구조화된 데이터를 추출하는 문제는 상대적으로 소홀히 다뤄졌습니다. Arth Bohra 등 8명의 연구자들은 이러한 문제점을 해결하고자 WebLists라는 새로운 벤치마크를 제시했습니다. WebLists는 4가지 일반적인 비즈니스 및 엔터프라이즈 활용 사례를 기반으로 200개의 데이터 추출 과제를 포함하고 있습니다. 각 과제는 에이전트가 웹페이지를 탐색하고, 적절히 설정한 후, 잘 정의된 스키마를 가진 완전한 데이터 세트를 추출해야 하는 복잡한 작업입니다.
흥미로운 점은, 기존의 최첨단(SOTA) 웹 에이전트와 검색 기능을 갖춘 LLM(대규모 언어 모델)조차도 이러한 과제에 어려움을 겪었다는 것입니다. 질문-응답 과제에서는 높은 성능을 보였지만, WebLists 벤치마크에서의 재현율은 각각 3%와 31%에 불과했습니다. 이는 기존 방법론의 한계를 명확히 보여주는 결과입니다.
연구진은 이러한 문제를 해결하기 위해 BardeenAgent라는 새로운 프레임워크를 제안했습니다. BardeenAgent는 웹 에이전트가 실행 과정을 반복 가능한 프로그램으로 변환하여, 유사한 구조를 가진 페이지에서 대규모로 재생할 수 있도록 합니다. 더 나아가 BardeenAgent는 HTML의 규칙적인 구조를 활용하는 최초의 LLM 에이전트입니다. 이는 모든 관련 항목을 캡처하는 일반화 가능한 CSS 선택기를 생성하고, 데이터 추출 작업에 맞게 조정하는 방식으로 이루어집니다.
그 결과는 놀랍습니다. WebLists 벤치마크에서 BardeenAgent는 **66%**의 재현율을 달성하여 기존 SOTA 웹 에이전트의 성능을 두 배 이상 향상시켰습니다. 뿐만 아니라, 출력 행당 비용을 3배나 절감하는 효율성까지 입증했습니다. 이는 단순히 성능 향상을 넘어, 실제적인 비즈니스적 가치를 창출하는 혁신적인 결과라고 할 수 있습니다.
이 연구는 복잡한 웹사이트에서 구조화된 데이터를 추출하는 기술의 획기적인 발전을 보여주는 동시에, LLM 에이전트의 활용 가능성을 넓히는 중요한 의미를 지닙니다. 앞으로 BardeenAgent와 같은 혁신적인 기술들이 웹 데이터 활용 방식에 어떤 변화를 가져올지 기대됩니다. 🙌
Reference
[arxiv] WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents
Published: (Updated: )
Author: Arth Bohra, Manvel Saroyan, Danil Melkozerov, Vahe Karufanyan, Gabriel Maher, Pascal Weinberger, Artem Harutyunyan, Giovanni Campagna
http://arxiv.org/abs/2504.12682v1