유전체 정보를 다루다보면 필연적으로 마주하는 VCF 파일. 그것을 편집하고 필터링하고 시각화하는데 도움을 주는 프로그램들은 여럿 있는데 저마다 상황과 구미에 맞는 것을 사용하면 되며 만능은 없다. 이 곳에서 간단히 소개해보고자 한다. 시작에 앞서 VCF 파일이 무엇이고 그 구성요소를 어떻게 해석하는지에 대해서는 다음 링크를 참조하길 (링크)
VCFtools
가장 친숙한 툴이 아닐까? 기본적인 필터링, 편집기능을 제공하면서 깨알같은 도구들이 제공된다. 그래서 오래되었음에도 여전히 사용하는 사람들이 있다. 물론 4.3 이상의 최신 버전 VCF에서는 호환이 안되어 편법(지난 글 참조)을 써야 한다.
관련링크 https://vcftools.github.io
BCFtools
VCFtools이 늙었다며 힙스터들이 주목한 대안되시겠다. samtools과 연계해 사용할 수 있어서 CNV, ROH와 같은 분석 기능이 강력하다. 그리고 VCFtools에서 제공하던 필터링 기능 등을 기본 제공한다. 결론은 VCFtools를 대체할 이유는 차고 넘친다.
관령링크 http://samtools.github.io/bcftools/howtos/index.html
GEMINI
다른 툴들과 다른 장점은 annotation 기능이 제공된다는 점이다. SnpEff를 연계하여 사용할 수 있다.
관련링크 https://gemini.readthedocs.io/en/latest/
igv
vcf 포맷을 실시간으로 시각적으로 매핑해서 볼 수 있는 프로그램이다. 특히 annotated vcf를 볼 때 큰 강점이 있다. 고퀄리티의 레퍼런스 지놈 데이터가 있는 경우라면 특히 그 효과를 극대화할 수 있다.
관련링크 https://software.broadinstitute.org/software/igv/
vcflib
깨알같이 다양한 분석기능을 제공하지만, C언어 기반인 이 툴은 내 맥과 궁합이 맞질 않는다. 설치하고 사용하는데 손이 많이간다. 다행히 기능들 상당수는 Galaxy에서 제공하고 내가 사용하는 클러스터에도 설치가 되어 있기에 로컬에서는 구동하지 않는다.
관련링크 https://github.com/vcflib/vcflib
vcfR
R기반의 툴로서 다재다능함을 보여준다. 일부 시각화에 편의기능을 제공하지만, 활용도는 딱 거기 까지인듯...
관련링크 https://cran.r-project.org/web/packages/vcfR/vignettes/intro_to_vcfR.html
radiator
마찬가지로 R기반의 툴로서 RADseq 혹은 GBS로 얻어진 VCF 파일을 필터링하고 다른 파일형식으로 컨버팅 하는데 강점이 있다. 특히 29가지 형식으로 파일을 변환할 수 있다는 점은 장점이며, 전체적으로 직관적이고 간결하다. 또한 RRS (reduced representation sequencing) 분석툴로 널리 애용되는 STACKS에서 나온 결과파일과 연계성이 좋다. 하지만 일부 기능들은 오작동을 하여 사용자의 세심한(?) 주의가 요구된다.
관련링크 https://thierrygosselin.github.io/radiator/
VCF.Filter
GUI 편의성이 장점인 JAVA 기반의 툴로서 커맨드라인이 익숙치 않은 초심자들에게 유용하다. 의외로 다양한 기능을 제공한다.
관련링크 https://biomedical-sequencing.at/VCFFilter/
'━ 연구정보공유' 카테고리의 다른 글
Forklift 사용시 캐시 점유 문제 (0) | 2022.06.23 |
---|---|
[R] 다양한 종류의 컬러 팔레트가 필요할 때 (0) | 2021.10.16 |
분자생태학 톺아보기 (an Introduction to Molecular Ecology) (0) | 2020.07.24 |
2019 맥북프로 16인치 스팟라이트 무한 인덱싱 현상과 그 해결 (0) | 2020.03.05 |
VCFtools로 VCF v4.3 편집하는 편법 (0) | 2020.02.27 |