mCLM: 기능을 내재화하고 합성 친화적인 모듈형 화학 언어 모델
본 기사는 기능 기반 모듈형 화학 언어 모델인 mCLM에 대한 연구 결과를 소개합니다. mCLM은 분자를 기능적 구성 요소로 분해하여 학습함으로써, 실험실 합성이 용이하고 기능성이 향상된 분자를 생성하는 데 성공했습니다. 430개의 FDA 승인 약물 데이터셋을 통해 효과를 검증했으며, FDA 거부 약물의 개선에도 성공했습니다. 이는 AI 기반 신약 개발 분야의 혁신적인 발전으로 평가받고 있습니다.

혁신적인 신약 개발의 꿈, mCLM이 열다
최근 인공지능(AI)의 눈부신 발전은 신약 개발 분야에도 큰 기대를 불러일으키고 있습니다. 거대 언어 모델(LLM)은 방대한 화학 지식을 이해하고 분자 구조를 정확하게 생성할 수 있지만, 실제로 약물처럼 활용 가능한 새로운 분자를 제안하고, 실험실에서 합성하기 어려운 분자를 제안하는 등의 한계를 가지고 있었습니다.
이러한 한계를 극복하기 위해, Carl Edwards 등 14명의 연구진이 mCLM(Modular Chemical-Language Model) 이라는 혁신적인 모델을 개발했습니다. mCLM은 기존 LLM과는 다르게 분자를 단순히 원자 단위로 처리하는 대신, 기능적인 구성 요소(functional building blocks) 로 분해하여 학습하는 것이 특징입니다. 이는 마치 문장을 단어로 분해하여 학습하는 것과 유사합니다. 각 구성 요소는 고유한 기능을 가지며, 실제 자동화된 실험실 합성에 효과적인 구성 요소로 작용합니다.
mCLM의 핵심은 바로 이러한 '모듈성'에 있습니다. 기능적인 구성 요소를 기반으로 학습된 mCLM은 자연어로 된 기능 설명과 분자 구성 요소를 이중 언어로 학습하는 이중 언어 모델입니다. 이를 통해 mCLM은 블록 기반 화학의 최근 발전 덕분에 효율적으로 합성 가능한 분자를 생성하면서 동시에 분자의 기능을 원칙적인 방식으로 향상시킵니다.
연구진은 430개의 FDA 승인 약물에 대한 실험을 통해 mCLM의 성능을 검증했습니다. 그 결과, 약물의 잠재력을 결정하는 데 중요한 6가지 화학적 기능 중 5가지에서 mCLM이 성능을 크게 향상시켰음을 확인했습니다. 더욱 중요한 것은, mCLM이 FDA에서 거부된 약물(fallen angels) 의 단점을 여러 번 반복하여 개선함으로써 성능을 크게 향상시킬 수 있다는 점입니다.
mCLM은 단순한 분자 생성 도구를 넘어, 실제 합성 가능성과 기능 향상이라는 두 마리 토끼를 모두 잡은 획기적인 모델입니다. 이는 앞으로 신약 개발 과정의 혁신을 가져올 뿐만 아니라, AI 기반 과학 연구의 새로운 지평을 열 것으로 기대됩니다. 이 연구는 AI를 활용한 신약 개발의 가능성을 한층 더 높여주는 중요한 이정표가 될 것입니다. 앞으로 mCLM을 활용한 더욱 다양한 연구와 응용이 기대됩니다.
Reference
[arxiv] mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model
Published: (Updated: )
Author: Carl Edwards, Chi Han, Gawon Lee, Thao Nguyen, Bowen Jin, Chetan Kumar Prasad, Sara Szymkuć, Bartosz A. Grzybowski, Ying Diao, Jiawei Han, Ge Liu, Hao Peng, Martin D. Burke, Heng Ji
http://arxiv.org/abs/2505.12565v1