HybriDNA: DNA의 언어를 해독하고 창조하는 혁신적인 AI 모델
15명의 연구진이 개발한 HybriDNA는 초장문 DNA 시퀀스를 단일 뉴클레오티드 해상도로 처리하며, 생성 및 이해 과제 모두 최첨단 성능을 보이는 혁신적인 DNA 언어 모델입니다. 3억에서 70억개의 파라미터 확장에도 성능 향상을 보이며, 생명 과학 분야에 혁신을 가져올 잠재력을 지닙니다.

생명의 신비를 푸는 열쇠, HybriDNA
최근 자연어 처리와 대규모 언어 모델의 발전은 '생명의 언어'라 불리는 DNA 모델링에 대한 관심을 폭발적으로 증가시켰습니다. 하지만 DNA 모델링은 그 자체로 엄청난 도전 과제를 안고 있습니다. 무엇보다도 개별 뉴클레오티드가 DNA 기능에 중요한 역할을 하는 만큼, 초장문 DNA 시퀀스를 처리하면서 단일 뉴클레오티드 해상도를 유지해야 하는 어려움이 있습니다. 또한, DNA 생성과 이해라는 두 가지 모두 뛰어난 성능을 필요로 합니다. 생성적 과제는 치료 및 산업적 응용 가능성을 열고, 이해 과제는 생물학적 메커니즘과 질병에 대한 중요한 통찰력을 제공하기 때문입니다.
이러한 어려움에 맞서, Mingqian Ma를 비롯한 15명의 연구진은 혁신적인 DNA 언어 모델 HybriDNA를 제시했습니다. HybriDNA는 트랜스포머와 Mamba2 아키텍처를 결합한 하이브리드 디코더 전용 모델로, 어텐션 메커니즘과 선택적 상태 공간 모델의 강점을 완벽하게 통합했습니다. 이러한 하이브리드 설계 덕분에 HybriDNA는 최대 131kb 길이의 DNA 시퀀스를 단일 뉴클레오티드 해상도로 효율적으로 처리할 수 있습니다.
HybriDNA는 BEND, GUE, LRB 벤치마크에서 얻은 33개의 DNA 이해 데이터셋에서 최첨단 성능을 달성했으며, 원하는 특성을 가진 합성 시스-조절 요소(CREs)를 생성하는 능력 또한 탁월하게 선보였습니다. 더 나아가, 연구진은 HybriDNA가 모델 파라미터를 3억 개에서 30억 개, 70억 개로 확장함에 따라 성능이 일관되게 향상되는 예상되는 확장 법칙을 준수함을 보여주었습니다.
이러한 결과는 HybriDNA의 다재다능함과 DNA 연구 및 응용 분야를 발전시킬 잠재력을 강조하며, '생명의 언어'를 이해하고 조작하는 혁신을 위한 길을 열었습니다. HybriDNA는 단순한 모델을 넘어, 생명 과학의 새로운 장을 열어갈 핵심 기술로 자리매김할 가능성이 매우 높습니다. 앞으로 HybriDNA가 어떤 놀라운 성과를 만들어낼지 기대됩니다! 🎉
Reference
[arxiv] HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model
Published: (Updated: )
Author: Mingqian Ma, Guoqing Liu, Chuan Cao, Pan Deng, Tri Dao, Albert Gu, Peiran Jin, Zhao Yang, Yingce Xia, Renqian Luo, Pipi Hu, Zun Wang, Yuan-Jyue Chen, Haiguang Liu, Tao Qin
http://arxiv.org/abs/2502.10807v2