【入門】主成分分析(PCA)とは

coursera

主成分分析(PCA)をできるだけわかりやすく解説したいと思い、記事を書きました。ご参考になれば幸いです。

主成分分析とは

PCA(主成分分析)はprincipal component analysisの略で、多数のデータから、データの特徴を最もよく表す「主成分」と呼ばれる変数を抜き出す手法です。機械学習において、次元の削減をするときなどによく用いられる方法です。

主成分の求め方

ここでは、以下のように、二次元に分布するデータの主成分を探索し、データを一次元に投影する方法を解説します。

この主成分となる軸において、データの分散が最大となるような主成分を探します。手順は以下の通りです。

① データの平均値を0にする

\( x_i – µ_i \)
  • x:データ
  • µ:データの平均値

それぞれのデータからデータの平均値を引き、データの平均が0になるようにします。

② データの共分散を求める

データの共分散(Σ)は以下の式で求めることができます。

\( \Sigma = \frac{1}{m}\sum_{i=1}^m(x^{(i)})(x^{(i)})^T \)

③ 共分散の固有値を求める

共分散の固有値は、データの分散を最大にするベクトル(主成分)と等しくなります。

④ 主成分にデータを投影する

主成分のベクトルをaとすると、データの主成分への正射影(z)は以下の式で計算できます。

\( z_i = ax_i \)
タイトルとURLをコピーしました