主成分分析について詳しく解説

導入

主成分分析(PCA) は、データ分析ファミリーの手法であり、より一般的には多変量統計の手法であり、相互にリンクされている (統計では「相関がある」と呼ばれる) 変数を相互に新しい独立変数 (したがって「相関がない」) に変換することで構成されます。。これらの新しい変数は「主成分」または軸と呼ばれます。これにより、実務者は、情報を初期の変数数よりも限定された数のコンポーネントに減らすことができます。

これは、幾何学的 (最大慣性の方向に従った新しい幾何学的空間における変数の表現) と統計的(データの変動性 (分散) を最もよく説明する独立軸の探索) の両方を備えたアプローチです。 N 個の確率変数のセットを圧縮したい場合は、慣性または説明された分散の観点から、PCA の最初のn軸がより良い選択となります (以下を参照)。

歴史

ピアソンの 1901 年の記事より: 「最適な線」の検索

PCA は、1901 年に出版されたカールピアソンの論文をソースとしています。χ² テストの父は、回帰といくつかの変数間の相関の分野で研究を拡張しました。ピアソンは、これらの相関関係を、(回帰の場合のように) ある変数を他の変数から説明するために使用するのではなく、これらの変数に含まれる情報を説明し、要約するために使用します。

PCA は依然として Karhunen-Loève 変換または Hotelling 変換として知られていますが、1930 年代に Harold Hotelling によってさらに開発され、正式化されました。このアメリカの経済学者および統計学者の数学的能力は、PCA がその一部である因子分析の一般化である正準分析の開発にもつながりました。

現在、応用分野は生物学から経済社会研究、そして最近では画像処理に至るまで多岐にわたります。 ACP は主に次の目的で使用されます。

データを説明および視覚化する。
それらの相関関係を解除します。新しい軸で構成される新しいベースでは、変数の相関関係はゼロです。
忘れることに決めた軸はノイズの多い軸であることを考慮して、それらのノイズを除去します。

サンプル

通常、これらの変数のK 個の共同実現のサンプルから既知のN 個の確率変数X ₁ , …, X _Nのセットに PCA を適用します。

これらN 個の確率変数のサンプルは、 K行N列の行列Mで構成できます。

$$ {M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}} $$

各確率変数X _n = ( X _{1 , n} , …, X _{K , n} )’ には平均があります。

$$ {\bar X_n} $$

と標準偏差_σ

重さ

実現 (行列Mの要素) の確率が等しい場合、各実現 (行列の要素X _{i 、 j} ) は、サンプルの特性の計算において同じ1/ n の重要性を持ちます。また、変数の各結合実現に異なる重みp _{i を}適用することもできます (調整されたサンプル、グループ化されたデータなどの場合)。これらの重みは、合計が 1 の正の数であり、サイズKの対角行列Dで表されます。

$$ {D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}} $$

重みが等しい最も一般的なケースでは、

$$ {D = {1 \over K} I} $$

ここで、 I は単位行列です。

サンプル変換

ベクトル

$$ {(\bar X_1, \cdots, \bar X_N)} $$

点群の重心です。 gとよく言われます。 g = M ‘ D 1となります。ここで1は、すべての成分が 1 に等しいR ^Kのベクトルを示します。

行列Mは通常、重心を中心としています。

$$ {\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M – 1g’} $$

。

削減することもできます。

$$ {\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}} $$

。

点群 (つまり、確率変数 ( X ₁ , …, X _N ) のK個の実現) を削減するかどうかの選択は、モデルの選択です。

クラウドを削減しない場合、分散が大きい変数は、PCA のすべての効果をそれ自体に「引き込み」ます。
雲を減らすと、ノイズだけの変数は、情報を提供する変数と同じ見かけの分散になります。

共分散と相関の計算

行列Mが次のように変換されると、

$$ {\bar M} $$

または

$$ {\tilde M} $$

、単純に転置を乗算すると、次のようになります。

Mが削減されない場合、 X ₁ , …, X _Nの分散共分散行列。
Mが減少した場合のX ₁ , …, X _Nの相関行列。

これら 2 つの行列は、(サイズNの) 正方行列で、対称で、実数です。したがって、それらは正規直交基底で対角化可能です。

より一般的には、分散共分散行列は次のように書かれます。

$$ {V = M’DM – gg’ = \bar M’ \cdot D \cdot \bar M} $$

。 D _{1 / s を}標準偏差の逆行列の対角行列とすると、次のようになります。

$$ {D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}} $$

そして

$$ {D_{1/s^2}} $$

分散の逆行列の対角行列を計算すると、次のようになります。

$$ {\tilde M = \bar M \cdot D_{1/s}} $$

。

N個の変数間の 2 つずつの線形相関係数の行列( Rで示されます) は、次のように記述されます。

$$ {R = \tilde M’ \cdot D \cdot \tilde M} $$

。

主成分分析について詳しく解説

導入

歴史

サンプル

重さ

サンプル変換

共分散と相関の計算

参考資料

主成分分析について詳しく解説・関連動画