딥러닝 기반 신약 개발의 난제: 분자 특성 예측의 한계 극복을 위한 새로운 벤치마크, BOOM


본 연구는 기계학습 기반 분자 특성 예측 모델의 분포 외(OOD) 성능을 평가하는 새로운 벤치마크 BOOM을 제시합니다. 140개 이상의 모델과 과제 조합을 평가한 결과, 기존 모델들의 OOD 일반화 능력이 부족함을 확인하고, 향후 연구 방향을 제시합니다.

related iamge

최근 딥러닝과 생성 모델의 발전으로 데이터 기반 신약 개발 파이프라인에 대한 관심이 높아지고 있습니다. 기계 학습(ML) 모델을 이용해 고가의 시뮬레이션 없이 새로운 분자를 설계하고 필터링하는 것이 가능해졌기 때문입니다. 하지만, 알려진 화학의 경계를 넘어서는 새로운 분자의 발견은 정확한 분포 외(Out-of-Distribution, OOD) 예측을 필요로 합니다. 문제는 기존 ML 모델들이 OOD 상황에서 일반화하는 데 어려움을 겪는다는 점입니다.

이러한 문제의식에서 출발하여 Evan R. Antoniuk 등 12명의 연구진은 BOOM (Benchmarking Out-of-distribution Molecular Property Predictions) 이라는 새로운 벤치마크 연구를 발표했습니다. BOOM은 일반적인 분자 특성 예측 모델에 대한 분포 외 예측 모델을 벤치마킹하는 연구로, 140개가 넘는 모델과 과제 조합을 평가하여 딥러닝 모델의 OOD 성능을 측정했습니다.

연구 결과는 다소 충격적입니다. 어떤 기존 모델도 모든 과제에서 강력한 OOD 일반화 성능을 보여주지 못했습니다. 최고 성능 모델조차도 분포 내 오류보다 평균 3배나 큰 OOD 오류를 보였습니다. 연구진은 높은 유도적 편향을 가진 딥러닝 모델이 단순하고 특정한 특성을 가진 OOD 과제에서 좋은 성능을 보일 수 있음을 발견했습니다. 전이 학습 및 문맥 내 학습을 활용하는 화학 기반 모델은 제한된 훈련 데이터 시나리오에 대한 유망한 해결책으로 제시되었지만, 현재 기반 모델은 강력한 OOD 외삽 능력을 보여주지 못했습니다.

연구진은 데이터 생성, 사전 훈련, 하이퍼파라미터 최적화, 모델 아키텍처, 분자 표현 등 다양한 요인이 OOD 성능에 미치는 영향을 폭넓게 분석했습니다. 그 결과, 강력한 OOD 일반화 능력을 가진 ML 모델 개발이 화학 ML 모델 개발의 새로운 도전 과제임을 제시했습니다. BOOM 벤치마크는 Github에서 오픈소스로 공개될 예정입니다. 이는 앞으로 화학 분야의 AI 연구에 중요한 기준점이 될 것으로 기대됩니다. 신약 개발 등 다양한 분야에서 OOD 문제 해결을 위한 새로운 연구가 활발히 진행될 것으로 예상됩니다. 하지만, 이번 연구는 현존 모델의 한계를 명확히 보여주며, 보다 강력한 OOD 일반화 능력을 가진 새로운 모델 개발의 필요성을 강조하고 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models

Published:  (Updated: )

Author: Evan R. Antoniuk, Shehtab Zaman, Tal Ben-Nun, Peggy Li, James Diffenderfer, Busra Demirci, Obadiah Smolenski, Tim Hsu, Anna M. Hiszpanski, Kenneth Chiu, Bhavya Kailkhura, Brian Van Essen

http://arxiv.org/abs/2505.01912v1