トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

課題0

課題0:準備課題

マイコプラズマ菌の全DNA配列ファイルから、各自に割り当てられた部分配列を切り出して別のファイルにする。

 0-1:ファイル

以下のディレクトリに様々なバクテリアのゲノム配列が格納されている:

/pub/sfc/dnadb/genomes/bacteria/

その中の

Mgen/mgen.gbk

というファイルにマイコプラズマ(M.genitalium)の遺伝子の塩基配列(約0.6メガ)が格納されている。

 0-2:特定遺伝子配列の切り出し

例えば割り当ての列が以下の場合、

127178 - 128811,237246 - 239251

127178文字目から128811文字目までと、237246文字目から239251文字目までを切り出して2つのファイルを作る。

切り出しの例:100文字目から200文字目までを切り出す場合

     1 taagttatta tttagttaat acttttaaca atattattaa ggtatttaaa aaatactatt
   61 atagtattta acatagttaa ataccttcct taatactgtt aaattatatt caatcaatac
  121 atatataata ttattaaaat acttgataag tattatttag atattagaca aatactaatt
  181 ttatattgct ttaatactta ataaatacta cttatgtatt aagtaaatat tactgtaata
  241 ctaataacaa tattattaca atatgctaga ataatattgc tagtatcaat aattactaat

emacs等のテキストエディタを駆使して、100文字目から200文字目まで、

tcaatcaatacatatataatattattaaaatacttgataagtattatttagatattagacaaatactaattttatattgctttaatactta

これを1つのファイルに入れる。

今回の皆さんの割当は以下の通り。

1つ目のの配列   2つ目の配列。
11152 - 12140 , 136079 - 137367

課題1:塩基使用頻度解析

 基本課題

1-1:担当遺伝子配列をファイルから読み込み、そのA,T,G,C 塩基の数をカウントするプログラムを書く。

1-2:マイコプラズマ菌全ゲノムファイルから配列を読み込めるようにプログラムを変更し、担当遺伝子配列の塩基使用頻度に偏りがな かったか考察する。

ヒント2:文字列どうしを比較するには == ではなく eq を用いる。

 応用課題

1-3:ニ連続塩基(dinucleotide、16種類)の頻度解析を行うようにプログラムを変更する。マイコプラズマ全ゲノムDNA配列の二連続 塩基の頻度パターンを調べ、1-2の結果からの期待値と比較、考察する。