1억 2천만 개의 세포 데이터로 풀어내는 생명의 비밀: OmniCellTOSG 데이터셋
1억 2천만 개의 단일 세포 데이터를 기반으로 한 OmniCellTOSG 데이터셋은 LLM과 GNN을 결합한 새로운 모델 개발을 가능하게 하며, 생명 과학, 의료, 정밀 의학 분야의 혁신을 이끌 잠재력을 가지고 있습니다. GitHub에서 공개적으로 접근 가능합니다.

인체는 수많은 세포들의 복잡한 상호작용으로 이루어져 있습니다. 이 세포들은 나이, 성별, 식습관, 환경적 노출, 질병 등 다양한 요인에 영향을 받으며, 수만 개의 유전자와 단백질의 상호 작용으로 이루어진 복잡한 신호 전달 시스템을 통해 조절됩니다. 이 시스템을 완전히 이해하는 것은 생명 과학의 오랜 숙제였습니다.
하지만 최근 Heming Zhang을 비롯한 13명의 연구자들은 OmniCellTOSG라는 획기적인 데이터셋을 발표하며 이 난제에 도전장을 내밀었습니다. OmniCellTOSG는 약 1억 2천만 개의 단일 세포 RNA 시퀀싱 데이터를 기반으로 구축된 세포 텍스트-오믹스 신호 전달 그래프(TOSG) 데이터셋입니다. 각 TOSG는 개별 세포 또는 메타세포의 신호 전달 네트워크를 나타내며, 장기, 질병, 성별, 나이, 세포 유형 등의 정보로 라벨링되어 있습니다.
이 데이터셋의 핵심은 인간이 읽을 수 있는 주석(생물학적 기능, 세포 위치, 신호 경로, 관련 질병, 약물 등) 과 정량적인 유전자 및 단백질 풍부도 데이터를 통합한 새로운 그래프 모델을 도입했다는 점입니다. 이를 통해 그래프 추론을 활용하여 세포 신호 전달 과정을 해독할 수 있게 되었습니다. 이는 거대 언어 모델(LLM)과 그래프 신경망(GNN) 을 결합한 새로운 모델 개발을 필요로 하는 혁신적인 접근 방식입니다.
OmniCellTOSG는 단순한 데이터셋을 넘어, 생명 과학, 의료, 정밀 의학 연구의 패러다임을 바꿀 잠재력을 가지고 있습니다. PyTorch와의 완벽한 호환성을 통해 연구자들은 쉽게 이 데이터셋을 활용하여 혁신적인 세포 신호 전달 모델을 개발할 수 있습니다. 무엇보다도, 이 데이터셋은 지속적으로 확장 및 업데이트될 예정이며, GitHub (https://github.com/FuhaiLiAiLab/OmniCellTOSG) 에서 공개적으로 접근 가능합니다.
OmniCellTOSG는 단순한 데이터의 집합이 아닌, 생명 현상의 복잡성을 풀어낼 강력한 도구입니다. 이를 통해 우리는 세포 신호 전달 과정에 대한 이해를 획기적으로 높이고, 질병 치료 및 예방에 혁신적인 발전을 가져올 수 있을 것입니다. 앞으로 OmniCellTOSG가 가져올 놀라운 발견들을 기대하며, 이 데이터셋이 생명 과학 분야의 새로운 지평을 열어갈 것이라 확신합니다.
Reference
[arxiv] OmniCellTOSG: The First Cell Text-Omic Signaling Graphs Dataset for Joint LLM and GNN Modeling
Published: (Updated: )
Author: Heming Zhang, Tim Xu, Dekang Cao, Shunning Liang, Lars Schimmelpfennig, Levi Kaster, Di Huang, Carlos Cruchaga, Guangfu Li, Michael Province, Yixin Chen, Philip Payne, Fuhai Li
http://arxiv.org/abs/2504.02148v1