条件を指定してFASTQファイルを複数のFASTQファイルに分ける

python

次世代シーケンサーで得られたFASTQファイルから、特定の配列だけを抜き出して、新しいFASTQファイルに分ける方法について解説します。なお、ここでは、イルミナ社の次世代シーケンサーMiSeqのpaired endリードの場合について書いていきます。

FASTQファイルから配列を読み込む

forward側のFASTQファイル(R1_001.fastq)とreverse側のFASTQファイル(R2_001.fastq)から必要な情報を取得します。FASTQファイルには、配列のID、配列、オプション、クオリティスコアの4項目が含まれるので、それぞれ別の配列に格納します。

FASTQファイルの読み込みに関しては、以下の記事にもまとめているので、参考にしてみてください。

FASTQファイルから配列を抜き出して、CSVファイルに出力する

指定した条件で配列を抜き出して、新しいFASTQファイルに追加

例として、「Aから始まる配列」、 「Tから始まる配列」、 「Cから始まる配列」、 「Gから始まる配列」をそれぞれ別のFASTQファイルに分けてみます。

forward側のリードの先頭の文字で場合分けをしています。forwardとriverseの対応関係が崩れないように抜き出す点に注意してください。

FASTQファイルは、拡張子をfastqに変えるだけで作成できます。

タイトルとURLをコピーしました