놀라운 AI의 발전: 생물학 분야에서 전문가를 뛰어넘다!
최근 연구에서 첨단 AI 모델들이 생물학 벤치마크에서 전문가 수준을 뛰어넘는 성능을 보였습니다. 특히 바이러스학 분야에서 두드러졌으며, 체인 오브 쏘트의 효과는 예상과 달랐습니다. 하지만 일부 벤치마크의 성능 정체는 더욱 정교한 평가 방법론의 필요성을 시사합니다.

최첨단 AI 모델, 생물학 벤치마크에서 전문가 능가
최근 Lennart Justen의 연구에 따르면, 27개의 최첨단 대규모 언어 모델(LLM)이 분자생물학, 유전학, 클로닝, 바이러스학, 생물 안전 등 8개의 생물학 벤치마크에서 놀라운 성능을 보였다고 합니다. 2022년 11월부터 2025년 4월 사이에 출시된 OpenAI, Google 등 주요 AI 개발사의 모델들을 대상으로 진행된 이 연구는 벤치마크당 10번의 독립적인 실행을 통해 평가되었습니다.
4배 이상 향상된 성능! 바이러스학 테스트에서 전문가 능가
가장 눈에 띄는 결과는 바이러스학 능력 테스트의 텍스트 기반 하위 집합에서 나타났습니다. 최고 모델의 성능은 연구 기간 동안 4배 이상 향상되었으며, OpenAI의 o3 모델은 전문 바이러스학자보다 두 배나 높은 성능을 기록했습니다! 이 뿐만 아니라 GPQA, WMDP, LAB-Bench CloningScenarios와 같은 다른 까다로운 벤치마크에서도 여러 모델이 전문가 수준의 성능에 도달하거나 능가하는 결과를 보였습니다.
예상을 깨는 결과와 한계
흥미롭게도, 체인 오브 쏘트(Chain-of-Thought)는 제로샷 평가보다 성능 향상에 큰 영향을 미치지 않았습니다. 이는 기존의 예상과는 다른 결과입니다. 반면, o3-mini와 Claude 3.7 Sonnet과 같은 모델의 확장 추론 기능은 예상대로 성능 향상에 기여했습니다. 하지만 PubMedQA, MMLU, WMDP 생물학 하위 집합과 같은 일부 벤치마크에서는 성능이 100%에 훨씬 못 미치는 정체 현상이 나타났습니다. 이러한 결과는 벤치마크의 포화 상태 또는 기본 벤치마크 데이터의 오류 가능성을 시사하며, 더욱 정교한 평가 방법론의 개발 필요성을 강조합니다.
미래를 향한 전망
이 연구는 AI 모델의 놀라운 발전과 동시에, 더욱 정교한 평가 방법론의 중요성을 보여줍니다. AI 기술의 급속한 발전에 따라, 평가 기준과 방법론 또한 지속적으로 발전되어야 AI의 잠재력을 더욱 효과적으로 활용하고, 그 한계를 명확히 파악할 수 있을 것입니다. 앞으로 AI가 생물학 연구를 비롯한 다양한 분야에 어떻게 기여할지, 그리고 어떤 과제에 직면하게 될지 주목할 필요가 있습니다. ✨
Reference
[arxiv] LLMs Outperform Experts on Challenging Biology Benchmarks
Published: (Updated: )
Author: Lennart Justen
http://arxiv.org/abs/2505.06108v3