kaggleを始めよう!データ取得から提出まで

スポンサーリンク
python
スポンサーリンク

kaggleは、データ解析の技術や機械学習モデルの精度を競うコンペティションサイトです。ずっと興味はあったのですが、とっつきにくさもあり、なかなか始められていませんでした。

今回、一番ハードルが低そうなMINISTのコンペティションに参加してみたので、提出までの流れをまとめておきたいと思います。

スポンサーリンク

データのダウンロード

まず、Dataのページに移動し、データをダウンロードします。

trainデータ、testデータ、そして、提出するときの形式を示したsample_submissionの三つのCSVファイルがダウンロードできました。

機械学習

データの読み込み

まず、CSVファイルのデータを読み込んでみます。

trainデータとして42000、testデータとして28000用意されているようです。また、Dataのページにも書いてある通り、28×28ピクセルの画像が、1×784の形に展開されています。

データの処理

1×784のデータを元の28×28に戻します。

trainデータとvalidationデータを分ける

trainデータのうちの20%を、モデルの評価用のデータ(validationデータ)として分けておきました。

trainデータが33600、validationデータが8400となりました。

学習

今回はKerasのConv2Dで畳み込みをしています。

テストデータを予測

学習済みのモデルで、テストデータを予測します。

ファイルに出力

ImageIdとLabelのヘッダーをつけて、予測結果をCSVファイルに書き込みます。

提出

最後に、Make a submissionのページから、自分のファイルを提出すれば完了です。自分のスコアと順位を確認できます。

タイトルとURLをコピーしました