導入
主成分分析(PCA) は、データ分析ファミリーの手法であり、より一般的には多変量統計の手法であり、相互にリンクされている (統計では「相関がある」と呼ばれる) 変数を相互に新しい独立変数 (したがって「相関がない」) に変換することで構成されます。 。これらの新しい変数は「主成分」または軸と呼ばれます。これにより、実務者は、情報を初期の変数数よりも限定された数のコンポーネントに減らすことができます。
これは、幾何学的 (最大慣性の方向に従った新しい幾何学的空間における変数の表現) と統計的(データの変動性 (分散) を最もよく説明する独立軸の探索) の両方を備えたアプローチです。 N 個の確率変数のセットを圧縮したい場合は、慣性または説明された分散の観点から、PCA の最初のn軸がより良い選択となります (以下を参照)。

歴史

PCA は、1901 年に出版されたカール ピアソンの論文をソースとしています。χ² テストの父は、回帰といくつかの変数間の相関の分野で研究を拡張しました。ピアソンは、これらの相関関係を、(回帰の場合のように) ある変数を他の変数から説明するために使用するのではなく、これらの変数に含まれる情報を説明し、要約するために使用します。
PCA は依然として Karhunen-Loève 変換または Hotelling 変換として知られていますが、1930 年代に Harold Hotelling によってさらに開発され、正式化されました。このアメリカの経済学者および統計学者の数学的能力は、PCA がその一部である因子分析の一般化である正準分析の開発にもつながりました。
現在、応用分野は生物学から経済社会研究、そして最近では画像処理に至るまで多岐にわたります。 ACP は主に次の目的で使用されます。
- データを説明および視覚化する。
- それらの相関関係を解除します。新しい軸で構成される新しいベースでは、変数の相関関係はゼロです。
- 忘れることに決めた軸はノイズの多い軸であることを考慮して、それらのノイズを除去します。
サンプル
通常、これらの変数のK 個の共同実現のサンプルから既知のN 個の確率変数X 1 , …, X Nのセットに PCA を適用します。
これらN 個の確率変数のサンプルは、 K行N列の行列Mで構成できます。
- $$ {M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}} $$
各確率変数X n = ( X 1 , n , …, X K , n )’ には平均があります。

重さ
実現 (行列Mの要素) の確率が等しい場合、各実現 (行列の要素X i 、 j ) は、サンプルの特性の計算において同じ1/ n の重要性を持ちます。また、変数の各結合実現に異なる重みp i を適用することもできます (調整されたサンプル、グループ化されたデータなどの場合)。これらの重みは、合計が 1 の正の数であり、サイズKの対角行列Dで表されます。
- $$ {D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}} $$
重みが等しい最も一般的なケースでは、
サンプル変換
行列Mは通常、重心を中心としています。
- $$ {\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M – 1g’} $$。
削減することもできます。
- $$ {\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}} $$。
点群 (つまり、確率変数 ( X 1 , …, X N ) のK個の実現) を削減するかどうかの選択は、モデルの選択です。
共分散と相関の計算
行列Mが次のように変換されると、
これら 2 つの行列は、(サイズNの) 正方行列で、対称で、実数です。したがって、それらは正規直交基底で対角化可能です。
より一般的には、分散共分散行列は次のように書かれます。
- $$ {D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}} $$
そして
- $$ {\tilde M = \bar M \cdot D_{1/s}} $$。
N個の変数間の 2 つずつの線形相関係数の行列( Rで示されます) は、次のように記述されます。
- $$ {R = \tilde M’ \cdot D \cdot \tilde M} $$。
