線形判別分析について詳しく解説

導入

線形判別分析は、予測判別分析手法の 1 つです。これには、予測変数を使用して測定された個人の特性に基づいて、事前に定義されたクラス (グループ) 内の個人のメンバーシップを説明および予測することが含まれます。

判別分析の記事であるノミハムシファイルの例では、その目的は、ノミがその種に属するか、またはその種に属するかを、そのひだの幅と角度に基づいて判断することです。

予測される変数は必然的にカテゴリカル (離散的) であり、この例では 3 つのモダリティがあります。予測変数は事前にすべて連続的です。ただし、適切なデータ準備があれば、離散予測変数を処理することは可能です。

線形判別分析は、機械学習で開発された教師あり手法や統計で開発されたロジスティック回帰と比較できます。

仮説と公式

サンプルをご用意しております

$$ {n\,} $$

に分布する観測結果

$$ {K\,} $$

労働力グループ

$$ {n_k\,} $$

。

注意しましょう

$$ {Y\,} $$

予測される変数の値を受け取ります

$$ {\{y_1,…,y_K\}\,} $$

。我々は持っています

$$ {J\,} $$

予測変数

$$ {X = (X_1,…,X_J)\,} $$

。

注意します

$$ {\mu_k\,} $$

条件付き点群の重心、

$$ {W_k\,} $$

それらの分散共分散行列。

ベイズの法則

目的は割り当てルールを作成することです

$$ {F : X \Rightarrow \{y_1,…,y_K\}} $$

これにより、特定の観測値ωについて、X が取得した値からそれに関連する Y の値を予測することが可能になります。

ベイジアンルールは、割り当ての事後確率の推定値を生成することで構成されます。

$$ {P(Y=y_k)\,} $$

クラスに属する先験的な確率です。

$$ {P(X/Y=y_k)\,} $$

クラスを条件とした X の密度関数を表します

$$ {y_k\,} $$

。

分類される個々のωの割り当て規則は次のようになります。

$$ {Y(\omega)=y_k^*} $$

もし、そしてその場合に限り

$$ {y_k^* = arg\; max_{k}\ P[Y(\omega)=y_k/X(\omega)]} $$

判別分析の問題全体は、数量の推定値を提案することになります。

$$ {P(X/Y = y_k)\,} $$

パラメトリック判別分析 – 多重正規性仮説

分布を正しく推定するには主に 2 つのアプローチがあります

$$ {P(X/Y=y_k)\,} $$

ノンパラメトリックアプローチでは、この分布について何の仮定も行われませんが、観測値の近傍で確率を局所的に推定する手順が提供されます。
$$ {\omega\,} $$
分類すること。最もよく知られている手順は、パルゼンカーネルと最近傍法です。主な困難は、近傍を適切に定義することです。

2 番目のアプローチでは、条件付き点群の分布を仮定します。この場合は、パラメトリック判別分析について説明します。最も一般的に使用される仮説は間違いなく多重正規性仮説です (正規法則を参照)。

多次元正規分布の場合、条件付き点群の分布は次のように記述されます。

または

$$ {|W_k|\,} $$

条件付きの共分散分散行列の行列式を表します。

$$ {y_k\,} $$

目的は割り当ての事後確率の最大値を決定することなので、 kに依存しないものはすべて無視できます。対数に切り替えることで、次の値に比例する判別スコアが得られます。

$$ {P(Y=y_k/X)\,} $$

したがって、割り当てルールは次のようになります。

$$ {Y(w)=y_k*\,} $$

ssi

$$ {y_k^* = arg\, max_k\, D[Y(w) = y_k,X(w)]} $$

判別スコアを完全に展開すると、予測変数間の二乗と外積の関数として表されることがわかります。これは二次判別分析と呼ばれます。他の方法と比較してパフォーマンスの点で非常に優れた動作をするため、研究で広く使用されていますが、実践者の間ではあまり普及していません。実際、判別スコアの表現は非常に複雑であるため、予測変数とそれが属するクラスとの間の因果関係の方向を明確に識別することは困難です。分類において実際に決定している変数を区別することは特に困難であり、結果の解釈は非常に危険です。

線形判別分析 – 等分散性の仮定

2 番目の仮説により、計算をさらに単純化することができます。これは等分散性の仮説です。つまり、分散共分散行列はあるグループから別のグループまで同一です。幾何学的には、これは点群が表現空間内で同じ形状 (および体積) を持つことを意味します。

この場合、推定された共分散行列は、次の式を使用して計算されたクラス内共分散行列です。

もう一度、判別スコアからkに依存しなくなったものをすべて削除できます。次のようになります。

リニアランキング機能

等分散性仮説を導入した後に判別スコアの式を開発すると、それが予測変数に関して線形に表現されることがわかります。

したがって、予測される変数のモダリティと同じ数の分類関数があり、これらは次の形式の線形結合です。

このプレゼンテーションは複数の点で魅力的です。係数の値と符号を調べることで、分類における因果関係の方向を決定することができます。同様に、後で説明するように、予測における変数の重要な役割を評価することが可能になります。

堅牢性

多重正規性と等分散性の仮定は限定的すぎるように思われる可能性があり、実際の線形判別分析の範囲が制限されます。

統計において覚えておく必要がある重要な概念は、堅牢性の概念です。初期の仮定が厳密に守られていない場合でも、方法は適用できます。これは線形判別分析の場合です。最も重要なことは、これを線形セパレーターとして考えることです。この場合、点群が表現空間内で線形に分離可能であれば、正しく動作します。

ロジスティック回帰などの他の線形手法と比較して、判別分析は同等のパフォーマンスを示します。ただし、等分散性の仮定が非常に大きく違反されると、悪影響を受ける可能性があります。