혁신적인 단백질 언어 모델: 구조 정렬을 통한 성능 향상
Can Chen 등 연구진이 개발한 구조 정렬 단백질 언어 모델(SaESM2, SaAMPLIFY)은 pGNN과 pLM을 결합한 이중 과제 프레임워크와 잔기 손실 선택 모듈을 통해 단백질 구조 예측 정확도를 크게 향상시켰으며, Hugging Face에서 공개될 예정입니다.

단백질 구조 예측의 혁명: 구조 정렬 단백질 언어 모델의 등장
방대한 단백질 서열 데이터베이스를 기반으로 사전 훈련된 단백질 언어 모델(pLM)은 다양한 작업에서 뛰어난 성능을 보여주고 있지만, 많은 생물학적 응용 분야에 필수적인 구조적 지식이 부족하다는 한계를 가지고 있었습니다. Can Chen을 비롯한 연구진은 이러한 문제를 해결하기 위해, 사전 훈련된 단백질 그래프 신경망(pGNN)의 구조적 통찰력을 pLM에 통합하는 획기적인 방법을 제시했습니다.
잠재 수준 대조 학습: pLM과 pGNN의 만남
연구진은 잠재 수준 대조 학습이라는 기법을 통해 pLM과 pGNN의 잔기 표현을 여러 단백질에 걸쳐 정렬했습니다. 이를 통해 단백질 간 구조적 지식이 pLM에 효과적으로 통합되었고, 단백질 내부 구조 지식을 주입하는 물리적 수준의 과제도 추가적으로 도입되었습니다. pLM이 구조 토큰을 예측하도록 최적화하여, 단백질 내부 구조 정보를 효과적으로 학습하도록 설계되었습니다. 이러한 이중 과제 프레임워크는 단백질 간 및 단백질 내 구조적 지식을 pLM에 효과적으로 통합합니다.
PDB 데이터의 한계 극복: 잔기 손실 선택 모듈
PDB(Protein Data Bank)에 있는 단백질 구조의 품질 편차를 고려하여, 연구진은 고품질 구조를 사용하여 훈련된 소규모 모델을 통해 신뢰할 수 있으면서도 도전적인 잔기 손실을 선택하는 잔기 손실 선택 모듈을 도입했습니다. 이를 통해 pLM의 학습 효율성을 높였습니다.
괄목할 만한 성능 향상: SaESM2와 SaAMPLIFY
이 구조 정렬 방법을 최첨단 ESM2 및 AMPLIFY 모델에 적용한 결과, 접촉 예측에서 ESM2는 12.7%의 성능 향상을 포함하여 광범위한 작업에서 주목할 만한 성능 향상을 달성했습니다. 연구진은 Hugging Face에서 SaESM2와 SaAMPLIFY 모델 및 관련 데이터, 코드를 공개할 예정입니다. 이는 단백질 구조 예측 분야의 획기적인 발전으로, 앞으로 다양한 생물학적 응용 분야에 큰 영향을 미칠 것으로 기대됩니다.
(참고: 본 기사는 제공된 정보를 바탕으로 작성되었으며, 과학적 정확성을 유지하기 위해 노력했습니다.)
Reference
[arxiv] Structure-Aligned Protein Language Model
Published: (Updated: )
Author: Can Chen, David Heurtel-Depeiges, Robert M. Vernon, Christopher James Langmead, Yoshua Bengio, Quentin Fournier
http://arxiv.org/abs/2505.16896v1