ページの先頭です

Clinical sequencing data analysis integrator (csDAI) 概要

csDAIは、バイオインフォマティクスの専門家によるlinux上での解析が必須であった次世代シーケンサー(NGS)データを、Windows 7 PC上でGUIからGATK Best Practicesに準拠した解析を可能にしたシステムです。Quality control解析や変異callおよびアノテーション解析を、 画面メニューのボタン操作で行うことができます。

csDAIは、Illumina社の次世代シーケンサーMiSeq®、HiSeq® 2500 Rapid Run Mode及びNextSeq®でシーケンシグされたペアエンドのFASTQファイルを解析対象にしています。

みずほ情報総研では、csDAIの販売・カスタマイズやNGSデータ解析サービスの提供を通じ、生命科学分野における研究を支援いたします。

機能一覧

左右スクロールで表全体を閲覧できます

Quality Control解析の機能の概要
クラスター数やパスフィルターの通過数のカウント
完全一致paired-end readの削除(PCR duplicates候補の削除)
skewer[1]によるアダプター配列の除去
Cycle毎、tile毎、read毎の塩基組成の割合及びQ-value値の平均値の算出
UCSC hg19+(NC_00765, hs37d5)へのBWA mem[2]によるマッピング
タイル毎のマッピング割合、properにマップされたreadからのcycle毎のミスマッチ割合
BWA mem[2]によりマッピングされた結果からのinsert長の分布作成
Picard[3]によるPCR duplicate判定の付与
Baitターゲット領域のdepthカウント
サンプルの性別、コンタミネーション、がん部と非がん部、血縁関係の確認

左右スクロールで表全体を閲覧できます

変異callとアノテーション付与の概要
GATK HaplotypeCaller[4]によるgermline call(中間ファイルとしてGVCFを利用)
GATK MuTect2[5]によるsomatic callとpanel of normal(PON)の作成
変異callからの自動アノテーション付与
VCFファイル、及び染色体位置と変異指定からのアノテーション付与

左右スクロールで表全体を閲覧できます

アノテーション項目の概要
ANNOVAR[6]によるアノテーション(別途ライセンスが必要)
Cancer Gene Census (CGC)の遺伝子情報の付与(別途ライセンスが必要)
Human Gene Mutation Database (HGMD)情報の付与(別途ダウンロードライセンスが必要)
NCBI RefSeqのIDに記載されている1行アノテーション情報
HGVDや2KJPNの頻度情報(別途ダウンロード申請が必要)
独自のコントロール頻度データを付与することが可能
独自のdeleteriousフラグ、各種データベースにおける最大変異頻度情報

左右スクロールで表全体を閲覧できます

Utility機能の概要
Analysis-ready read BAM作成
BAMファイルの統合
GVCFファイルの統合
VCFファイルの統合
Alternative allele read数割合の染色体表示
VCFファイルからの遺伝子型一致割合の計算

  1. [1]Hongshan Jiang, Rong Lei, Shou-Wei Ding and Shuifang Zhu. Skewer: a fast and accurate adapter trimmer for next-generation sequencing paired-end reads. BMC Bioinformatics Vol. 15, pp. 182, 2014.
  2. [2]Heng Li and Richard Durbin. Fast and accurate short read alignment with burrows-wheeler transform. Bioinformatics, Vol. 25, No. (14), pp. 1754–60, Jul 2009.
  3. [3]Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R., and 1000 Genome Project Data Processing Subgroup. The sequence alignment/map (sam) format and samtools. Bioinformatics, Vol. 25, pp. 2078–2079, 2009.
  4. [4]DePristo M., Banks E., Poplin R., Garimella K., Maguire J., Hartl C., Philippakis A., del Angel G., Rivas MA., Hanna M., McKenna A., Fennell T., Kernytsky A., Sivachenko A., Cibulskis K., Gabriel S., Altshuler D, and Daly M. A framework for variation discovery and genotyping using next-generation dna sequencing data. Nature Genetics, Vol. 43, pp. 491–498, 2011.
  5. [5]Cibulskis K, Lawrence MS, Carter SL, Sivachenko A, Jaffe D, Sougnez C, Gabriel S, Meyerson M, Lander ES and Getz G. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnology, Vol. 31, No. 3, pp. 213–219, 2013.
  6. [6]Wang K., Li M., and Hakonarson H. Annovar: Functional annotation of genetic variants from next-generation sequencing data. Nucleic Acids Research, Vol. 38, p. e164, 2010.
  • *「csDAI」は、みずほ情報総研株式会社の登録商標です。
  • *Windows®は米国Microsoft Corporationの米国およびその他の国における登録商標または商標です。
  • *MiSeq®およびHiSeq®は米国Illumina, Inc.の米国およびその他の国における登録商標または商標です。
ページの先頭へ