トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

ゲノム工学実習

ゲノム工学実習 大学院科目

  • 【開講日程】 2018年度 秋学期 特定期間集中 【担当教員】 荒川 和晴
【前提科目(推奨)】B6161:基礎分子生物学4 
【前提科目(推奨)】B6160:基礎分子生物学3
【前提科目(推奨)】B6159:基礎分子生物学2
【前提科目(推奨)】B6158:基礎分子生物学1
【前提科目(推奨)】34190:基礎分子生物学4
【前提科目(推奨)】34180:基礎分子生物学3
【前提科目(推奨)】34170:基礎分子生物学2
【前提科目(推奨)】34160:基礎分子生物学1
【前提科目(推奨)】B3215:生命科学実験の基礎
【前提科目(推奨)】C2038:遺伝子解析実習
【前提科目(推奨)】34130:遺伝子解析実習
  • 【開講場所】 TTCK 【授業形態】講義、実習
  • 【履修条件】TTCK生のみ履修可
  • 【連絡先】 gaou@sfc.keio.ac.jp
注意
配布資料などはSFC-SFSの授業ページで公開します。

科目概要

DNA解析技術の飛躍的な向上により、微生物程度のゲノム解析はもはや「誰でも」「どこでも」可能なレベルにまで簡単になってきている。特に、携帯型ナノポアシークエンサーの登場は初期投資をほぼ必要とせずに長鎖DNAの解析を安価に可能とした。このような現状を踏まえれば、微生物程度のゲノムであれば遺伝子単位ではなくもはやゲノム単位でDNAを解析することが第一選択肢となる時代が到来していることを意味する。そこで、本実習では任意の微生物から長鎖DNAを抽出・精製し、ナノポアシークエンサーにてDNAを読み取り、それをバイオインフォマティクスによりアセンブル・アノテーションし、解析可能なゲノム情報にして、さらにそれをGenome Reportsの形にして国際誌に投稿するまでの全過程を学ぶ。

授業シラバス

  主題と目標/授業の手法など

DNA解析技術の飛躍的な向上により、微生物程度のゲノム解析はもはや「誰でも」「どこでも」可能なレベルにまで簡単になってきている。特に、携帯型ナノポアシークエンサーの登場は初期投資をほぼ必要とせずに長鎖DNAの解析を安価に可能とした。このような現状を踏まえれば、微生物程度のゲノムであれば遺伝子単位ではなくもはやゲノム単位でDNAを解析することが第一選択肢となる時代が到来していることを意味する。そこで、本実習では任意の微生物から長鎖DNAを抽出・精製し、ナノポアシークエンサーにてDNAを読み取り、それをバイオインフォマティクスによりアセンブル・アノテーションし、解析可能なゲノム情報にして、さらにそれをGenome Reportsの形にして国際誌に投稿するまでの全過程を学ぶ。

前半の過程では実際にナノポアシークエンサーに適した長鎖DNAをシーケンスする実験を実習として行い、後半ではシーケンスされたDNAをコンピュータを用いて解析する。よって、実験・バイオインフォマティクス双方の過程を学ぶが、知識としては少なくとも実験の経験があれば構わない。

  教材・参考文献

参考文献:

  1. 荒川和晴(企画), "どこでも 誰でも より長く ナノポアシークエンサーが研究の常識を変える!", 実験医学 2018年1月号 Vol.36 No.1

  提出課題・試験・成績評価の方法など

実験ノート及び最終レポートをもって評価する

  履修上の注意

実験経験のあるTTCK生のみ履修可。

授業計画

第1回 イントロダクション

ナノポアシーケンスと、ゲノム解析の流れについて講義します。

第2回 長鎖DNA抽出 1

ナノポアシーケンス用長鎖DNAを抽出します。

第3回 長鎖DNA抽出 2

ナノポアシーケンス用長鎖DNAを抽出します。

第4回 長鎖DNA抽出 3

ナノポアシーケンス用長鎖DNAを抽出します。

第5回 長鎖DNA抽出 4

ナノポアシーケンス用長鎖DNAを抽出します。

第6回 長鎖DNA QC 1

長鎖DNAの品質をパルスフィールド電気泳動を用いて検証します。

第7回 長鎖DNA QC 2

長鎖DNAの品質をパルスフィールド電気泳動を用いて検証します。

第8回 長鎖DNA QC 3

長鎖DNAの品質をパルスフィールド電気泳動を用いて検証します。

第9回 ナノポアライブラリ作製

ナノポアシーケンス用ライブラリを作成します。

第10回 ナノポアシーケンシング

ライブラリをシーケンスにかけます。

第11回 ゲノムアセンブリー

得られたゲノムをアセンブルします。

第12回 エラー補正

Nanopolishを用いてエラー補正します。

第13回 ゲノムアノテーション

D-FASTを用いてゲノムをアノテーションします。

第14回 Genome Report執筆

これまでに得られたデータをGenome Reportの形にまとめます。

その他

毎回実験ノートをまとめ、次回の準備をする

ゲノムのアセンブリー

ファイル

冨田研ファイルサーバの

/home/gaou/gew/

直下にそれぞれのバーコードに相当する配列(fastq)、バーコードに対応するフォルダのGA*****以下のreadsフォルダに波形データを含むfast5ファイルがあります。

MinION用の管理ソフト(MinKNOW)だと勝手にバーコードをdemultiplexするところまでやってくれるんですが、GridIONの方はやってくれないので、その後porechop (https://github.com/rrwick/Porechop) を使ってdemultiplexしています。

リードのフィルタリング

まず、現状ではリードが多すぎるので、だいたいx50~x100になるようにリードを調整します。この時、長いリードは残したいので、

awk 'BEGIN {OFS = "\n"} {header = $0 ; getline seq ; getline qheader ; getline qseq ; if (length(seq) >= 10000 ) {print header, seq, qheader, qseq}}' < input.fq > filtered-10000.fastq

のように(ここのinput.fqを入力ファイル, あとは10000を任意の数字に)すると、任意の長さ以上の配列だけを取得できます。こちらを以下のコマンドでFastqからFastaに変換し

/home/gaou/bin/fastq2fasta.pl -a filtered-10000.fastq

以下のコマンドで統計値を算出して、カバレッジを合わせます。

/home/gaou/bin/stat.pl filtered-10000.fa

stat.plはG-language GAEを必要としますが、smith系統のサーバなら標準でG-language GAEがインストールされています。

Canuでのアセンブリー

次にcanu (https://github.com/marbl/canu)をインストールします。Canuは最新版だと場合によってはまだバイナリが配布されていないので、自分でコンパイルが必要です。その場合、一つ前のバージョンだとLinux版のバイナリが配布されています。指示にしたがってコンパイルするか、バイナリの場合は解凍してください。コンパイルの場合、Javaのバージョンに依存性があるので、あまり古いOSだとコンパイルできない可能性がある点ご注意ください。kingではワーニングたくさんでますが問題なくコンパイルできました。

その後canuでアセンブリーを行います。メモリやCPUの関係上kingでやるのが良いかと思いますが、

qsub -I -l nodes=1:ppn=32

でkingのノードにログインし、

canu-1.8/Linux-amd64/bin/canu -nanopore-raw BC01.fastq -d BC01 -p BC01 -fast useGrid=false genomeSize=4m

のように打って(BC01.fastqは上でフィルタリングしたfastqのファイル名に、BC01のところは自分のバーコード、あるいは任意の名前に変えてくださいね)アセンブリーを実行してください。-fastオプションは精度を犠牲にして実行速度を上げるオプションで、今回くらいのカバレッジ(x100)があればつけても問題なくアセンブリーできると思いますが、時間がかかっても構わないなら外してください。genomeSizeオプション(頭にハイフンをつけない点に注意)は予想ゲノムサイズより少し大きめを設定してください。バクテリアの場合大抵4mで良いと思います。

大きな問題がなければこれで数時間でアセンブリーが終了します。

/home/gaou/bin/stat.pl -length BC01/BC01.contigs.fasta

と打って、ちゃんとアセンブリーが終了したか確認します。

末端処理

まず環状化ができているかを確認します。

grep ">" BC01.contigs.fasta

で各contigのFASTAヘッダを見て、右端のsuggestCircularがyesになっているか確認します。長さが10kbpに満たないsuggestCircularがnoのcontigはゴミの可能性が高いですので、多くの場合破棄して構いません。

suggestCircularがyesのものは、染色体かプラスミドの可能性が高いです。長さが1Mbpに満たないものはプラスミドの可能性が高いので、適当に数kbp分をコピーしてNCBI BLASTに投げてみましょう。プラスミド配列にヒットするようでしたら高い確率でプラスミドと言えます。

ここでsuggestCircularがyesになっていても、環状であることを確認しているだけで環状化されているわけではありません。最初の50文字程度で自身の配列内を検索して、末端部分に該当する場所を見つけてください。基本的に、その後に続く配列が先と部分と末端の該当部分で一致するはずです。一致を確認したら、末端の一致部分を削除します。

アセンブリークオリティの検証

アセンブリーのクオリティ確認はN50だけではだめで、ちゃんとゲノムとして全遺伝情報がカバーできているか、を確認する必要があります。このためにはCEGMAやBUSCOといった手法(http://kazumaxneo.hatenablog.com/entry/2017/07/19/145640) を用います。これらのソフトウェアはインストールが面倒なのですが、理研が開発しているgVolanteというウェブサーバが非常に簡単に使えるようにしてくれています。https://gvolante.riken.jpBUSCOはv.1がバクテリアに対応しています。

ナノポアの配列のみでアセンブルした場合、大抵の場合BUSCOスコアが目安となる90%程度を著しく下回ります。これは、多くの場合indel系のエラーが解決されないことに起因します。

エラーコレクション

エラー補正には、ナノポアリードを使う場合と、Illuminaリードを使う場合の二通りがあります。ただし、Illuminaリードがを用いた方が確実に良い結果が得られます。今回この授業ではIlluminaシーケンスは行いませんが、研究でこのサンプルを本気で利用する場合には追加のIlluminaシーケンス(x30程度でok)を強く勧めます。既にIlluminaのリードがあるグループもあると思うので、その場合には是非それを利用してください。新規で読んでいてIlluminaリードがない場合にはnanoporeオンリーのエラーコレクションを行います。

1. Illuminaでの補正Pilonを使います。https://github.com/broadinstitute/pilon/wiki基本的にはBWAでmapping後pilonをかけるだけです。

2. Nanoporeでの補正nanopolishを使います。https://github.com/jts/nanopolishnanopolish indexでfastqとfast5を対応付け、fastqをbwaでリファレンスにマッピングし、実行します。マニュアルだとparallelを用いた方法が書いてありますが、以下のように実行するとシングルで実行できます。が、非常に時間がかかるので、parallelをインストールできる場合parallelを使って16並列 x 4スレッド、あるいは8並列 x 8スレッドくらいでやったほうがいいかもしれません。

nanopolish variants --consensus -r BC01.dedup.fastq -b BC01/reads.sorted.bam -g BC01/BC01.contigs.fasta -o BC01.nanopolished.fasta -t 64 -q dcm,dam -w tig00000001:1-3640229

マニュアルに書いていませんが、この時、-q dcm,damオプションをつけることは重要です。これはDNAのメチル化を考慮に入れたベースコールをするオプションで、これが入るとエラーコレクションの精度が大分向上します。(バクテリアゲノムは特にメチレーションが多いため)

  • kingだと例によってwarningは出ますが問題なくコンパイルできます。
  • fastqエントリがduplicateだと言われる場合: /home/gaou/bin/fastq-dedup.pl BC01.fastq > BC01.dedup.fastq
  • nanopolish index時は -fオプションでsequencing_summaryの場所を必ず指定すること(でないと異様に遅い)
  • nanopolishの最適カバレッジはx100~200です。これ以上ある場合にはx200以下までダウンサンプリングしてください。
  • nanopolish indexとbwa memはいずれもかなり時間がかかるので、同時にかけると良いでしょう。
  • nanopolish は異様に時間かかるので、先にRaconで様子を見てみるのもアリです。http://kazumaxneo.hatenablog.com/entry/2018/03/22/013006

アノテーション

アノテーションには、遺伝子予測、機能予測、ゲノム開始位置のdnaAへの調整、などなど非常に手間のかかる作業がたくさんあるのですが、今はいい時代なのでDDBJ DFASTというオンラインツールで全自動でやってくれます。https://dfast.nig.ac.jp

  Genome Report

投稿先

ASM Microbiology Resource Annoucementshttps://mra.asm.org/content/getting-started

フォーマット

https://mra.asm.org/content/organization-and-format

Abstract: 50 wordsTotal word: 500 words (abstractとacknowledgementsは除く)タイトル: 54文字以内

チェックリスト

https://mra.asm.org/sites/default/files/additional-assets/thumbs/MRA_Author_Checklist.pdf