Prot42: 혁신적인 단백질 언어 모델, 표적 단백질 결합체 생성의 새 지평을 열다
Prot42는 3D 구조 정보 없이도 고친화성 단백질 결합체를 생성할 수 있는 혁신적인 단백질 언어 모델입니다. 최대 8192개 아미노산 서열을 처리 가능하며, 공개적으로 제공되어 신약 개발 및 생명공학 분야에 혁신을 가져올 것으로 기대됩니다.

Prot42: 혁신적인 단백질 언어 모델, 표적 단백질 결합체 생성의 새 지평을 열다
생명공학과 치료 혁신의 다음 단계를 위한 잠금 장치를 해제하려면 기존의 단백질 공학 방법의 고유한 복잡성과 자원 집약성을 극복해야 합니다. 최근 GenAI 기반 계산 기술은 고친화성 결합체를 생성하기 위해 종종 표적 단백질의 3D 구조와 특정 결합 부위의 가용성에 의존하며, AlphaProteo 및 RFdiffusion과 같은 모델이 보여주는 제약입니다.
이 연구는 고친화성 결합체 생성을 위한 단백질 언어 모델(pLM)의 사용을 탐구합니다. 연구진은 방대한 양의 비표지 단백질 서열을 사전 학습시킨 새로운 계열의 단백질 언어 모델(pLM)인 Prot42를 소개합니다. 자연어 처리의 획기적인 발전에서 영감을 받은 고급 자동 회귀 디코더 전용 아키텍처를 통해 진화적, 구조적, 기능적 통찰력을 포착함으로써 Prot42는 언어 기반 계산 단백질 설계 기능을 획기적으로 확장합니다. 놀랍게도 이 모델은 최대 8,192개의 아미노산 서열을 처리하여 표준 제한을 훨씬 뛰어넘고 큰 단백질과 복잡한 다중 도메인 서열을 정밀하게 모델링할 수 있습니다.
강력한 실용적인 응용 프로그램을 시연하는 Prot42는 고친화성 단백질 결합체와 서열 특이적 DNA 결합 단백질 생성에 탁월합니다. 혁신적인 모델은 공개적으로 제공되어 과학계에 효율적이고 정확한 계산 도구를 제공하여 단백질 공학을 가속화합니다. Mohammad Amaan Sayeed, Engin Tekin, Maryam Nadeem, Nancy A. ElNaker, Aahan Singh, Natalia Vassilieva, Boulbaba Ben Amor 등이 참여한 이 연구는 단백질 설계 분야의 획기적인 발전을 보여줍니다. 단백질 구조에 대한 사전 지식 없이도 고효율로 새로운 단백질을 설계할 수 있다는 점에서 큰 의미를 지닙니다. 이는 신약 개발 및 생명공학 분야에 혁신적인 변화를 가져올 수 있는 잠재력을 가지고 있습니다. 앞으로 Prot42 모델이 어떻게 활용될지, 그리고 어떤 새로운 발견을 이끌어낼지 기대됩니다.
잠재적 영향:
- 신약 개발 가속화: 새로운 약물 표적에 대한 고친화성 결합 단백질을 빠르게 설계할 수 있습니다.
- 생명공학 혁신: 산업적 활용 가치가 높은 새로운 단백질을 디자인할 수 있습니다.
- 기초 과학 연구 진전: 단백질 기능과 진화에 대한 이해를 높일 수 있습니다.
이 연구는 단순한 기술적 진보를 넘어, 생명과학 전반에 걸쳐 혁신적인 변화를 가져올 잠재력을 지니고 있습니다. Prot42의 등장은 단백질 공학의 새로운 시대를 예고하는 중요한 이정표입니다.
Reference
[arxiv] Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation
Published: (Updated: )
Author: Mohammad Amaan Sayeed, Engin Tekin, Maryam Nadeem, Nancy A. ElNaker, Aahan Singh, Natalia Vassilieva, Boulbaba Ben Amor
http://arxiv.org/abs/2504.04453v1