fastaファイルを読み込んで、one-hotに変換してCSVファイルに出力する

python

fastaファイルをcsvファイルに変換するときにはBioPythonを使うのがおすすめです。とても簡単に変換できるので、今回はそのソースコードをご紹介します。one-hotに変換することで、ディープラーニングの入力データとして使いやすくなると思います。

fastaファイルとは

fastaファイルは、遺伝子やアミノ酸をなどの記載によく使われるファイルフォーマットです。Protein Data Bank(PDB)などのデータベースから配列をダウンロードするときや、次世代シーケンサーの解析の際に見たことがある方も多いと思います。形式としては、「> 配列名」改行して、配列を書くのが一般的です。

ByoPythonのインストール

ByoPythonのインストールはこちらのサイトを参考にしてください。

でインストールできると思います。もし、pythonのバージョンを指定したい場合は以下のようにしてください。

ソースコード

1.fastaというfastaファイルの配列をone-hotに変換したものを、2.csvというcsvファイルに出力します。

1.fastaの中身はこちらです。

この二つの配列がone-hotに変換され、2.csvでこのように出力されました。

アミノ酸配列をone-hotに変換する場合は以下のように変えてください。

Kerasをインストールしている場合は下のコードでも変換できると思います。

タイトルとURLをコピーしました