마이크로비옴 WGS 연구기법 소개 [22년 여름호]
편집부
news@ksnnews.or.kr | 2022-06-02 12:02:15
마이크로비옴 연구 동향
마이크로비옴 (microbiome, metagenome) 은 특정 환경에 존재하는 미생물(microbiota)과 그들의 유전 정보 (genome)를 통틀어 말하는 것으로, 인체 마이크로비옴은 인체 안팎의 모든 미생물과 그들의 유전정보 전체를 말한다. 인체에 서식하는 미생물 수는 인간 세포의 2배이상, 미생물들의 유전자 총합은 인간 유전자 개수의 100배 이상으로 알려져 있다. 특히 장내에는 가장 많은 수의 미생물이 서식하며, 장내 마이크로비옴은 장 질환뿐 아니라 아토피, 비만, 당뇨, 우울증 등 다양한 질환과 관련성이 밝혀지고 있다.
이러한 인체 마이크로비옴의 중요성이 십여년 전부터 대두되어왔고, 전 세계적으로 대형 국제 프로젝트로 인체 마이크로비옴 연구가 진행되고 있다. 대표적 프로젝트는 미국 국립보건원에서 주관한 인체 마이크로비옴 프로젝트 (HMP) 및 유럽 국제 컨소시엄에서 주관한 인간 장내 메타게놈 프로젝트 (MetaHIT) 이 있다.
HMP는 인체 각 부위의 마이크로비옴 분석을 통해 인체 마이크로비옴의 참조 유전체 데이터 베이스를 구축하고자 했으며, 300명이상의 성인 남녀의 구강, 비강, 피부, 위장관, 비뇨관 등 신체 곳곳으로부터 11,000개 이상의 샘플을 수집하여 신체 부위에 따른 미생물 군집 구조 분석을 수행하였다.
또한 인체 부위에 따른 미생물 군집 분석을 위해 생산된 리보좀 소단위체를 구성하는 RNA 의 시퀀싱 데이터 16s rRNA, 및 마이크로비옴 서열 데이터 shotgun sequence 를 메타데이터와 함께 HMPDACC data browser에 공개하여 다른 연구자들이 자유롭게 사용하도록 했다.
MetaHIT 은 2008년부터 2012년까지 8개국 13개팀이 참여하여 건강인과 질병인에서의 마이크로비옴 차이에 대해 분석하고, 미생물 유전자의 레퍼런스 카탈로그를 발표하였으며 마이크로비옴 데이터 통합관리 생물정보학 (bioinformatics) tool 을 개발하여 공개했다.
마이크로비옴 연구 방법의 진화
1980년대 이전 마이크로비옴 연구는 균주를 분리하여 배양하는 방법을 이용하였고, 이러한 배양법만으로는 80% 이상의 장내 미생물을 배양할 수 없는 단점이 있었다. 1977년 Woese와 Fox 에 의해 박테리아의 계통적 특징을 반영하는 16S rRNA 시퀀스를 발견한 이래로, 30여년간 16S rRNA 를 타겟으로 하는 amplicon sequencing 이 장내 미생물 군집 구조 파악에 핵심적인 역할을 하였다.
16S rRNA는 약 1550 bp 의 길이를 가지며, 변이 부위가 보존 부위를 동시에 가지고 있어, 보존 부위를 통해 계통 발생 분석에 용이하면서, 변이 부위에 따라 같은 속(genus) 내의 종(species)의 구분 가능성이 있다는 장점이 있어 현재도 많은 마이크로비옴 연구에서 사용되고 있다.
그럼에도 몇 가지 한계점이 있는데, 우선 PCR 기반의 분석으로 미생물 다양성의 편향이 발생할 수 있고, 각 genomic locus 에 따라 균분류(taxonomy)에 대한 분석력이 차등적일 수 있다. 또한 균분류 구성 (taxonomic composition) 에 대한 정보는 제공하지만, 미생물 유전체의 기능적 측면과 생리학적 중요성에 대한 정보는 가지고 있지 않다.
마이크로비옴의 기능적 측면을 파악하기 위해서는 전체 미생물의 유전체를 시퀀싱하고, 이전에 규명된 유전자와 비교하여 미생물 군집의 기능적인 측면을 연구하는 전체 유전자 염기서열 분석법 (whole metagenome sequencing; WGS)이 필요하다.
최근 NGS (new generation sequencing) 기술의 발전으로 인해, Illuina, Thermo Fisher Sceintific, Pacific Biociences, Oxford Nanopore Technologies 등의 회사들에서 고성능의 NGS 장비들이 지속적으로 출시되어 왔고, read 심도(depth) 와 속도가 증가된 대용량 유전자서열 시퀀싱을 비교적 낮은 비용으로 실시할 수 있게 되었다.
여기서는 마이크로비옴의 비교적 최신 분석법으로 사용되는 Whole metagenome sequencing (shotgun sequencing) 을 분석하는 방법에 대해 소개하고 다양한 분석 tool 에 대한 간략한 소개를 통해 연구자들이 새로이 분석을 시도하는데 도움이 되고자 한다.
마이크로비옴 WGS 연구방법
먼저 검체로부터 획득한 raw data 시퀀스는 quality control 을 위해 trimmomatic 또는 KneadData (https://bitbucket.org/biobakery/kneaddata) tool 을 이용하여 human read (인체에서 유래된 gene) 를 제거한다.
이후의 분석은 paired-end set 의 merging 후 진행하기도 하고, merging 을 생략하고 forward-reverse read 를 해당 분석 tool 의 pipeline 에 각각 넣기도 한다. Merging 을 하는 tool 로는 PEAR 가 최근 사용되고 있고, NGmerge, BBMerge 등의 tool 도 사용할 수 있다.
QC 를 진행한 시퀀스로는 본격적인 분석을 진행하게 되고, Shotgun sequencing 의 분석은 크게 두가지 파트로 이루어져 있다. 첫번째는 어떠한 미생물이 존재하는지, 균분류의 다양성 (taxonomic diversity) 를 확인하는 과정이며, 두번째는 이러한 미생물이 어떠한 역할을 하는지 생물학적 기능 (biologic function) 을 추정하는 것이다.
Taxonomic diversity 의 분석은 특정 환경에서 어떤 미생물이, 얼마나 많은 농도(양)으로 존재하는지 분석하는 것으로, 이를 통해 서로 다른 환경 (각 인체) 에서 미생물의 유사성을 판단하여 특정 미생물의 차이로부터 해당 미생물의 생물학적인 기능의 차이를 조사할 근거를 제시하게 된다.
이러한 균분류의 분석은 보통 세가지 방법으로 진행될 수 있는데 marker gene을 통한 탐색, clustering을 통한 균분류 추정 (binning), 또는 유전자 조각들의 assembling 을 통해 특정 유전체 (genome)을 확인하는 것이다. 이러한 분석은 한가지만으로 진행되기도 하지만, binning 후 assembling 을 확인하는 등 두가지 이상의 방법을 동원하여 정확도를 높이기도 한다.
Marker gene 을 통한 분석은 특정 taxa 에 대한 정보를 나타내는 marker gene database (rRNA gene또는 protein coding gene 으로 주로 구성) 와 시퀀스를 비교하는 것으로, 비교적 빠른 분석 시간이 소요된다.
MetaPhyler 와 MetaPhlAn 은 목표 시퀀스와 저장된 taxonomy 의 marker gene 시퀀스 사이의 sequence similarity 를 분석하는 tool이며, 단순 taxonomy 와 더불어 계통학적 정보 (phylogenetic information) 을 함께 분석하는 AMPHORA, PhyloSift, PhylOTU 등의 tool도 있다.
이러한 marker gene 분석의 제한점으로는 marker gene database 가 등록되지 않은 taxa 의 경우 분석에서 제외될 수 있다는 점으로, 이러한 단점을 극복하기 위해 지속적으로 marker gene database 의 확장이 시도되고 있다.
두번째로 Binning 을 통한 분석은 marker gene이 없으면 분류가 되지 않았던 분석과 다르게, 컴퓨터 예측 분류를 통해 모든 시퀀스를 특정 그룹으로 분류(assign) 하고자 하며, 미생물 시퀀스의 특성(GC contents, tetramer frequency 등)에 따라 구분하는 sequence composition binning 방법 (사용되는 tool: PhyloPithia. PhylopithiaS, Phymm 등), 각 tool 의 데이터베이스에 annotation 되어있는 균주의 시퀀스와 유사성에 따라 분류하는 sequence similarity binning 방법 (사용 tool: MEGAN, MG-RAST, CARMA 등), 각 read 에서 특정 유전체 데이터베이스와 유사한 부분을 mapping 후, mapping 된 유전체에 따라 균주를 추정하는 fragment recruitment 방법 (사용 tool: MOSAIK, Genometa 등) 이 있다.
이러한 binning 을 통한 분석은 각각의 bin 이 모두 annotation 되지 않을 수 있다는 점 (annotation 된 taxa 와 binning 된 read 와의 괴리) , 그리고 비교적 환경내 드문 새로운 균주는 예측이 잘 되지 않을 수 있다는 한계가 있다.
마지막으로 Assembly 를 통한 taxonomy diversity 분석은 여러 개의 획득한 짧은 시퀀스를 이어서 하나의 긴 시퀀스로 만들어 특정 균주로 추정하는 것이다. 이러한 assembly 방법은 긴 시퀀스가 만들어지면서 생물정보학적 분석을 진행하기 수월해진다는 장점이 있지만 반면에 키메라 (chimera)가 생성될 위험 (서로 다른 genome 에서 유래된 시퀀스가 오결합) 이 있다는 단점이 있다.
이러한 단점을 극복하기 위해 먼저 binning 을 진행하고 각각의 bin 에 대해서 assembly 를 하는 방법도 있으며, long-read 와 short-read sequencing 을 동시에 assembly 하는 방법도 이러한 오류를 줄이는 방안이 된다. Assembly 법의 또다른 한계로는 환경 내의 풍부한 taxa 에만 국한될 수 있다는 점으로, 매우 적은 균주의 경우 assembly 가 어렵다는 단점이 있다.
그리고 높은 컴퓨팅 리소스가 필요하여 RAM 요구도가 문제가 될 수 있다. Assembly 방법을 진행하는 tool 로는 MetaVelvet, Meta-IBDA, Genovo 등이 있다.
다음으로 생물학적 기능을 추정하는 분석은 기존에 알려진 기능적 정보를 가진 유전자, 단백, 단백질 패밀리 (protein family) 또는 대사 패밀리 (metabolic family) 에 찾아낸 시퀀스를 비교해 annotation 하는 과정으로 일반적으로 유전자 예측 (gene prediction) 과 유전자 분류 (gene annotation) 과정으로 이루어져 있다.
유전자 예측은 어떤 read 가 coding 시퀀스를 담고 있는지 결정하는 것으로, unassembled 또는 assembled 시퀀스에서 모두 가능하긴 하나, assembled 시퀀스에서 더 수월하게 진행할 수 있다.
Coding region 을 직접적으로 확인하는 방법은, taxonomy 분석의 binning에서와 마찬가지로 유전자에 대한 fragment recruitment 를 시행하는 것이다. 특정 기능이 알려진 유전차의 전체 길이(full-length) 시퀀스에 거의 유사하거나 일치하는 시퀀스 조각들을 mapping 하여 확인하여 이들을 해당 유전자의 subsequence 로 annotation 하게 된다. 그러나 이 방법은 기존 데이터와 완전히 동일한 시퀀스를 찾는 것으로 새로운 유전자나, 데이터베이스에 잘 포함되지 않은 다양한 유전자의 식별이 필요한 경우 적절하지 않다.
또 다른 방법으로는 각 유전자 시퀀스를 6 frame 으로 변환하여 생성된 각각의 단백질 시퀀스를 데이터베이스와 비교하는 것으로, USEARCH, RAPsearch 등의 tool 을 사용한다. 이 경우에도 기존의 단백질 데이터베이스와 비교하기 때문에 새로운 유전자의 발견에는 적합하지 않다.
반면 de novo gene prediction 방법은 미생물 유전체의 다양한 속성 (codon 사용, GC bias 등) 에 대해 컴퓨터가 훈련하여 이를 통해 시퀀스가 코딩 유전자를 포함하는지, 기존 데이터와 유사성을 평가하며, MetaGene, Glimmer-MG, Orphelia 등의 tool 이 사용된다.
이렇게 coding sequence 를 예측한 이후, 각 시퀀스는 기능적인 분류 (annotation) 을 진행하게 된다. Annotation 을 위한 전략으로는 기존의 시퀀스 데이터베이스를 이용하여 유사한 단백 coding region 을 찾는 방법과 exon 과 intron 의 시퀀스 특성 또는 규칙을 학습하여 컴퓨터 기계학습 (hidden Markov models 등)을 이용하여 찾아내는 방법이 있다.
시퀀스 데이터베이스를 사용하는 경우 상대적으로 빠르고, 데이터베이스의 서열에 대한 hit (count) 를 명확하게 확인할 수 있는 반면, hidden Markov models (HMM) 을 사용하는 경우에는 좀더 멀리 관련된 다양한 단백질 패밀리의 구성원을 식별할 수 있는 장점이 있다. Annotation 시퀀스 데이터베이스로는 MG-RAST 에서 사용하는 SEED annotation system, KEGG 대사 경로 모듈에 쉽게 매핑할 수 있는 KEGG orthology, 이와 비슷하게 대사 경로에 대한 mapping이 가능한 MetaCyc, 그리고 비교적 자주 업데이트 되는 EggNOG 등이 있다.
HMM 의 경우는 Pfam, Phylofacts와 같은 tool 을 사용하게 된다. 이러한 annotation 과정은 상당한 컴퓨팅 리소스를 필요로 하며, 멀티코어 서버를 이용해야 할 수 있다. 이를 분석해주는 서버도 존재하며, MG-RAST 가 대표적으로, raw read 를 올리거나 assemble 된 read 를 웹서버에 올리면 annotation 을 진행해준다.
Raw read 의 경우는 짧기 때문에 단백질에 대한 정보가 부족할 수 있는 반면 버리는 sequence 가 없다는 장점이 있고, Assembly 된 경우는 비교적 정확하게 기능 단백의 양을 count 할 수 있다. MG-RAST(https://www.mg-rast.org/), IMG/M (https://img.jgi.doe.gov/m/) 등의 tool 이 이러한 웹서버 기반의 분석을 제공한다.
반면 연구자가 직접 시스템에서 인스톨하여 annotation 하는 방법으로는 RAAMCAP, Smash-Community, HUMAnN 등의 workflow 를 이용할 수 있다. 이러한 단백 또는 단백질 패밀리의 분류는 해당 환경에서 미생물의 기능을 추정하게 하지만 완전하지는 않다.
기능에 대한 ‘추정’만을 제공하며, 실제 기능의 활성화 확인하기 위해서는 metatranscriptomic, metaproteomic 분석이 추가로 필요할 수 있다. 또한 이 분석에서 기능적인 annotation 이 잘 알려져 있지 않은 단백질 패밀리들이 분류되는 경우가 많고, 이러한 단백 패밀리의 경우는 기능은 알 수 없지만 진단적인 가치를 지닐 수는 있겠다.
맺으며
NGS 분석이 활성화된 요즘, 마이크로비옴 분석에 흥미를 갖는 연구자들이 늘어나면서 다양한 분석 tool 과 관련 데이터베이스가 지속적으로 생성 및 업데이트 되고 있다. 현재 대부분의 자주 사용되는 tool 들은 리눅스 기반의 command-line 환경에서 분석을 진행할 수 있으나, 웹서버 기반 (MG-RAST, IMG/M, Orphelia 등) 의 쉽게 접근 가능한 tool 도 지속적으로 제공되고 있어 command-line 환경에 친숙하지 않은 연구자들도 분석이 가능하다.
또한 마이크로비옴 WGS 분석을 위해서는 시퀀스 데이터의 저장공간 및 높은 컴퓨터 리소스가 필요하며 이것이 연구의 큰 방해요소가 될 수 있는데, 최근 클라우드 컴퓨팅은 대용량의 시퀀스를 보관하고 분석할 수 있는 저장공간, 메모리, CPU 를 빌려주므로 바이오익스프레스와 구글지노믹스와 같은 유전체 분석 전용 클라우드 서버를 이용한 분석도 충분히 시도해 볼 수 있겠다.
[ⓒ 대한신장학회 소식지. 무단전재-재배포 금지]