본문 바로가기
━ 연구정보공유

VCF 핸들링 프로그램

by 하늘종개 2020. 3. 5.
반응형

유전체 정보를 다루다보면 필연적으로 마주하는 VCF 파일. 그것을 편집하고 필터링하고 시각화하는데 도움을 주는 프로그램들은 여럿 있는데 저마다 상황과 구미에 맞는 것을 사용하면 되며 만능은 없다. 이 곳에서 간단히 소개해보고자 한다. 시작에 앞서 VCF 파일이 무엇이고 그 구성요소를 어떻게 해석하는지에 대해서는 다음 링크를 참조하길 (링크)

 

VCFtools 

가장 친숙한 툴이 아닐까? 기본적인 필터링, 편집기능을 제공하면서 깨알같은 도구들이 제공된다. 그래서 오래되었음에도 여전히 사용하는 사람들이 있다. 물론 4.3 이상의 최신 버전 VCF에서는 호환이 안되어 편법(지난 글 참조)을 써야 한다. 

관련링크 https://vcftools.github.io

 

VCFtools

Welcome to VCFtools VCFtools is a program package designed for working with VCF files, such as those generated by the 1000 Genomes Project. The aim of VCFtools is to provide easily accessible methods for working with complex genetic variation data in the f

vcftools.github.io

BCFtools

VCFtools이 늙었다며 힙스터들이 주목한 대안되시겠다. samtools과 연계해 사용할 수 있어서 CNV, ROH와 같은 분석 기능이 강력하다. 그리고 VCFtools에서 제공하던 필터링 기능 등을 기본 제공한다. 결론은 VCFtools를 대체할 이유는 차고 넘친다.

관령링크 http://samtools.github.io/bcftools/howtos/index.html

 

BCFtools HowTo

BCFtools is a program for variant calling and manipulating files in the Variant Call Format (VCF) and its binary counterpart BCF. All commands work transparently with both VCFs and BCFs, both uncompressed and BGZF-compressed. In order to avoid tedious repe

samtools.github.io

 

GEMINI

다른 툴들과 다른 장점은 annotation 기능이 제공된다는 점이다. SnpEff를 연계하여 사용할 수 있다. 

관련링크 https://gemini.readthedocs.io/en/latest/

 

GEMINI: a flexible framework for exploring genome variation — gemini 0.20.1 documentation

GEMINI: a flexible framework for exploring genome variation Overview GEMINI (GEnome MINIng) is a flexible framework for exploring genetic variation in the context of the wealth of genome annotations available for the human genome. By placing genetic varian

gemini.readthedocs.io

igv

vcf 포맷을 실시간으로 시각적으로 매핑해서 볼 수 있는 프로그램이다. 특히 annotated vcf를 볼 때 큰 강점이 있다. 고퀄리티의 레퍼런스 지놈 데이터가 있는 경우라면 특히 그 효과를 극대화할 수 있다. 

관련링크 https://software.broadinstitute.org/software/igv/

 

Home | Integrative Genomics Viewer

Overview The Integrative Genomics Viewer (IGV) is a high-performance visualization tool for interactive exploration of large, integrated genomic datasets. It supports a wide variety of data types, including array-based and next-generation sequence data, an

software.broadinstitute.org

vcflib

깨알같이 다양한 분석기능을 제공하지만, C언어 기반인 이 툴은 내 맥과 궁합이 맞질 않는다. 설치하고 사용하는데 손이 많이간다. 다행히 기능들 상당수는 Galaxy에서 제공하고 내가 사용하는 클러스터에도 설치가 되어 있기에 로컬에서는 구동하지 않는다.

관련링크 https://github.com/vcflib/vcflib

 

vcflib/vcflib

C++ library and cmdline tools for parsing and manipulating VCF files - vcflib/vcflib

github.com

 

vcfR

R기반의 툴로서 다재다능함을 보여준다. 일부 시각화에 편의기능을 제공하지만, 활용도는 딱 거기 까지인듯... 

관련링크 https://cran.r-project.org/web/packages/vcfR/vignettes/intro_to_vcfR.html

 

Introduction to vcfR

vcfR is a package intended to help visualize, manipulate and quality filter data in VCF files. Preliminaries Input files frequently present challenges to analysis. A common problem I encounter is that chromosome names are not standardized among VCF, FASTA

cran.r-project.org

 

radiator

마찬가지로 R기반의 툴로서 RADseq 혹은 GBS로 얻어진 VCF 파일을 필터링하고 다른 파일형식으로 컨버팅 하는데 강점이 있다. 특히 29가지 형식으로 파일을 변환할 수 있다는 점은 장점이며, 전체적으로 직관적이고 간결하다. 또한 RRS (reduced representation sequencing) 분석툴로 널리 애용되는 STACKS에서 나온 결과파일과 연계성이 좋다. 하지만 일부 기능들은 오작동을 하여 사용자의 세심한(?) 주의가 요구된다.

관련링크 https://thierrygosselin.github.io/radiator/

 

RADseq Data Exploration, Manipulation and Visualization using R

RADseq Data Exploration, Manipulation and Visualization using R.

thierrygosselin.github.io

VCF.Filter

GUI 편의성이 장점인 JAVA 기반의 툴로서 커맨드라인이 익숙치 않은 초심자들에게 유용하다. 의외로 다양한 기능을 제공한다. 

 

관련링크 https://biomedical-sequencing.at/VCFFilter/

 

VCF.Filter

General workflow VCF.Filter generates variant hiltlists from next-generation sequencing data. Filters are applied to textual and numerical custom annotations provided in VCF (variant call format) files. VCF format primer Although VCF files are text files t

biomedical-sequencing.at

 

 

반응형