3D 단백질 구조와 네트워크 전파를 활용한 다종 단백질 기능 주석: MSNGO 모델의 혁신
본 기사는 3D 단백질 구조와 네트워크 전파를 활용하여 다종 단백질 기능을 예측하는 혁신적인 MSNGO 모델에 대해 소개합니다. AlphaFold2 및 그래프 신경망 기술을 기반으로 한 MSNGO는 기존 방법들을 능가하는 성능을 보이며, 희소한 단백질 주석을 가진 종에 대한 효과적인 종 간 레이블 전파를 가능하게 합니다. 이는 단백질 기능 연구와 생명과학 발전에 중요한 기여를 할 것으로 기대됩니다.

최근 몇 년간 AlphaFold2와 같은 혁신적인 기술 덕분에 단백질 기능 예측 분야는 눈부신 발전을 이루었습니다. 특히, 고정밀도 단백질 구조 예측의 등장은 단백질 기능 예측의 정확도를 비약적으로 향상시켰습니다. 그러나 단일 종 단백질 기능 예측에서의 성공과는 달리, 다종 종 단백질 기능 예측은 여전히 PPI 네트워크와 염기서열 정보에 의존하는 단계에 머물러 있습니다. 특히, 단백질 주석 정보가 부족한 종에 대한 효과적인 종 간 레이블 전파는 여전히 어려운 난제로 남아 있습니다.
이러한 문제를 해결하기 위해, Beibei Wang을 비롯한 연구팀은 MSNGO 모델을 제안했습니다. MSNGO는 단백질 구조 정보와 네트워크 전파 방법을 통합한 혁신적인 모델입니다. 핵심은 AlphaFold2로 예측된 고해상도 3D 단백질 구조를 활용하여 단백질의 구조적 특징을 효과적으로 추출하고, 이를 그래프 신경망(GNN) 을 이용하여 학습한다는 점입니다. 연구팀은 단백질 구조 접촉 지도(contact map)에서 아미노산 표현을 추출하고, 그래프 합성 풀링 모듈을 사용하여 단백질 수준의 구조적 특징을 도출하는 그래프 표현 학습 기술을 고안했습니다. 여기에 ESM-2에서 얻은 염기서열 정보까지 결합하여, 이종 네트워크 내에서 정보를 집계하고 노드 표현을 업데이트하는 네트워크 전파 알고리즘을 적용합니다.
연구 결과는 MSNGO가 염기서열 정보와 PPI 네트워크에 의존하는 기존의 다종 종 단백질 기능 예측 방법들을 능가하는 성능을 보여주었습니다. 이는 단백질 구조 정보가 다종 종 단백질 기능 예측의 정확도를 크게 향상시킬 수 있음을 보여주는 중요한 결과입니다. MSNGO 모델의 소스 코드는 GitHub (https://github.com/blingbell/MSNGO)에서 공개되어 있습니다.
MSNGO의 등장은 다종 종 단백질 기능 예측 분야에 새로운 지평을 열었습니다. 단백질 구조 정보의 효과적인 활용과 네트워크 전파 알고리즘의 조합은 단백질 기능 연구에 혁신적인 도구를 제공하며, 향후 생명과학 및 의학 분야의 발전에 크게 기여할 것으로 기대됩니다. 특히, 희소한 데이터를 가진 종에 대한 이해를 높여, 다양한 생물종의 단백질 기능을 보다 정확하게 예측하는 데 중요한 역할을 할 것으로 예상됩니다.
Reference
[arxiv] MSNGO: multi-species protein function annotation based on 3D protein structure and network propagation
Published: (Updated: )
Author: Beibei Wang, Boyue Cui, Shiqu Chen, Xuan Wang, Yadong Wang, Junyi Li
http://arxiv.org/abs/2503.23014v1