【図解】k-means algorithm(k平均法)とは

coursera

最近、k平均法について勉強したので、備忘録も兼ねてk平均法について解説したいと思います。

k平均法とは

k平均法とは、クラスタ(データの集団)の平均値を用いて、データをk個に分類するアルゴリズムです。分類するクラス数kは事前に自分で決定しておきます。

数式で表現すると以下の最適化アルゴリズムを解くことになります。

\( J = \frac{1}{m}\sum_{i=1}^m|| x^{(i)} – µ_j ||^2 \)
  • m:データ数
  • x:データ
  • µ:クラスタの中心

上の式で、クラスタの中心(µ)を移動させることで、コスト関数Jを最小化するµを探します。

k平均法のアルゴリズム

続いて、k平均法のアルゴリズムを図で解説します。下の図のようにデータが分布しているとき、二つのクラスタ(k=2)にデータを分類する場合を考えます。

① データの分類の基準となる、クラスターの中心の初期値を決めます。

② それぞれのクラスターの中心と各データの距離を計算し、近い方のクラスターにデータを分類します。

③ 各クラスタに含まれるデータの平均値を求め、新しい中心とします。

④ 再びデータの分類を行います。

②から④の手順を、

\( J = \frac{1}{m}\sum_{i=1}^m|| x^{(i)} – µ_j ||^2 \)

が最小になるまで繰り返し、最適なクラスタを探索します。

タイトルとURLをコピーしました