課題0:準備課題
マイコプラズマ菌の全DNA配列ファイルから、各自に割り当てられた部分配列を切り出して別のファイルにする。
0-1:ファイル
以下のディレクトリに様々なバクテリアのゲノム配列が格納されている:
/pub/sfc/dnadb/genomes/bacteria/
その中の
Mgen/mgen.gbk
というファイルにマイコプラズマ(M.genitalium)の遺伝子の塩基配列(約0.6メガ)が格納されている。
0-2:特定遺伝子配列の切り出し
例えば割り当ての列が以下の場合、
127178 - 128811,237246 - 239251
127178文字目から128811文字目までと、237246文字目から239251文字目までを切り出して2つのファイルを作る。
切り出しの例:100文字目から200文字目までを切り出す場合
1 taagttatta tttagttaat acttttaaca atattattaa ggtatttaaa aaatactatt 61 atagtattta acatagttaa ataccttcct taatactgtt aaattatatt caatcaatac 121 atatataata ttattaaaat acttgataag tattatttag atattagaca aatactaatt 181 ttatattgct ttaatactta ataaatacta cttatgtatt aagtaaatat tactgtaata 241 ctaataacaa tattattaca atatgctaga ataatattgc tagtatcaat aattactaat
emacs等のテキストエディタを駆使して、100文字目から200文字目まで、
tcaatcaatacatatataatattattaaaatacttgataagtattatttagatattagacaaatactaattttatattgctttaatactta
これを1つのファイルに入れる。
今回の皆さんの割当は以下の通り。
1つ目のの配列 2つ目の配列。 11152 - 12140 , 136079 - 137367
課題1:塩基使用頻度解析
基本課題
1-1:担当遺伝子配列をファイルから読み込み、そのA,T,G,C 塩基の数をカウントするプログラムを書く。
1-2:マイコプラズマ菌全ゲノムファイルから配列を読み込めるようにプログラムを変更し、担当遺伝子配列の塩基使用頻度に偏りがな かったか考察する。
ヒント2:文字列どうしを比較するには == ではなく eq を用いる。
応用課題
1-3:ニ連続塩基(dinucleotide、16種類)の頻度解析を行うようにプログラムを変更する。マイコプラズマ全ゲノムDNA配列の二連続 塩基の頻度パターンを調べ、1-2の結果からの期待値と比較、考察する。