分散分析について詳しく解説

導入

分散分析(英語のANOVA : AN alogical OF VA rianceと略されることが多い用語) は、複数のサンプルが同じ母集団に由来することを検証できる統計検定です。

このテストは、説明され続ける変数の分布に影響を与える 1 つ以上のカテゴリ説明変数 (当時は変動因子と呼ばれ、そのさまざまなモダリティは「レベル」と呼ばれることもあります) を測定するときに適用されます。分析が変動要因、二要因分析、または多要因分析によって記述されるモデルに焦点を当てている場合、私たちは一要因分析について話します。

原理

分散分析により、 1 つ以上のカテゴリ説明変数の関数として説明される連続変数の挙動を研究することが可能になります。説明される複数の変数の挙動を同時に調べたい場合は、多重分散分析(MANOVA) を使用します。モデルにカテゴリカル説明変数と連続説明変数が含まれており、カテゴリカル変数の各モダリティに従って説明される変数と連続説明変数を結び付ける法則を研究したい場合は、共分散分析(ANCOVA) を使用します。

モデル

分散分析の最初のステップは、研究対象の問題に従って理論モデルを作成することから構成されます。研究に統合したい要素に応じて、同じ問題に対して複数のモデルを作成できることがよくあります。

一般的なモデルは次のように記述されます。

Y _{i j k …}説明される変数、 μ は定数、 f () は説明変数間の関係、 ε は測定誤差です。誤差は正規法則ε = N (0,σ ² )に従うという基本的な仮説を立てます。

説明変数

カテゴリ変数には、変量効果ありとなしの 2 種類があります。

固定効果変数の場合、モダリティごとに、対応する固定値が存在します。理論モデルでは次のように大文字で書かれています。

i=0 の場合は_A = A 0、i = ₁の場合はA = A 1 などです。

変量効果のある変数の場合、その変数は固定値に追加される正規法則に基づいていると考えられます。理論モデルでは、これらは小文字のギリシャ文字で書かれています。

α _i = μ _a + ε _αで、

$$ {\epsilon_\alpha = N(0, \sigma_\alpha^2)} $$

固定効果と変量効果を持つ説明変数のみに基づくモデルを混合モデルと呼びます。

基本的な前提条件

分散分析の一般的な形式はフィッシャーテストに基づいており、したがって分布の正規性とサンプルの独立性に基づいています。

分布の正規性: 帰無仮説の下で、サンプルは同じ母集団から得られ、正規分布に従うと仮定します。したがって、分布の正規性と均一分散性 (たとえば、 Bartlett 検定やLevene検定を使用した分散の均一性) をチェックする必要があります。それ以外の場合は、分散分析のノンパラメトリックバリアント ( Kruskal-Wallis ANOVAまたはFriedman ANOVA ) を使用できます。

サンプルの独立性: 分析される各サンプルは他のサンプルから独立していると想定されます。実際には、これはサンプルが独立していると仮定できる問題です。依存サンプルの一般的な例は、繰り返しによる測定の場合です (各サンプルが数回分析されます)。依存サンプルの場合は、反復測定による分散分析、またはノンパラメトリックの場合にはフリードマン分散分析を使用します。

検証する仮説

帰無仮説は、分布が同じ正規法則に従う場合に対応します。

対立仮説は、平均が他の平均から逸脱する分布が少なくとも 1 つ存在するというものです。

$$ {\begin{cases} {H_0~:~m_{1}=m_{2}=…=m_{k}=m} \\ {H_1~:~\exists (i,j)~\text{tel que}~m_i \neq m_j} \end{cases}} $$

。

分散分解

分散分析の最初のステップは、すべてのサンプルにわたる合計分散を、要因による分散 (モデルによって説明される分散)、要因間の相互作用による分散、ランダム残差分散の関数として説明することから構成されます (分散はモデルによって説明されません)。

$$ {S_n^2} $$

分散の偏りのある推定量であるため、計算には偏差の二乗和 (フランス語ではSCE 、英語ではSum SquareのSS ) を使用し、分散の不偏推定量を使用します。

$$ {S_{n-1}^2} $$

(平均二乗またはCMとも呼ばれます)。

測定値の偏差 (平均からの偏差を意味します) は、この測定値と平均値の差です。

$$ {e = y_{ijk…} – \overline{y}} $$

。

SCE 偏差と推定量の二乗の合計

$$ {S_{n-1}^2} $$

は次の式から計算されます。

次に、合計偏差の二乗和S C E _{total を}、各説明変数S C E_係数の偏差の二乗和と偏差の二乗和の線形合成として書くことができます。各インタラクションS C E_{インタラクション}:

変数が正規分布に従わない場合でも、この分散の分解は常に有効です。

フィッシャーテスト

仮説によれば、観測変数y _{i は}正規分布に従います。 k自由度の χ² 法則はkの正規法則の二乗の和として定義され、偏差S C Eの二乗和は自由度の数D D Lとともにχ² 法則に従います。

フィッシャーの法則は、χ² の 2 つの法則の比として定義されます。帰無仮説H ₀の場合、分散の 2 つの不偏推定量間の比

$$ {S_{DDL}^2~} $$

したがって、フィッシャーの法則に従う必要があります。

Fの値がこのフィッシャーの法則と互換性がない場合 (つまり、 Fの値が棄却しきい値より大きい場合)、帰無仮説を棄却します。つまり、分布間に統計的に有意な差が存在すると結論付けます。変動係数は、研究対象集団を同一のグループに分けるものではありません。念のため、拒絶閾値F _α ( D D L ₁ 、 D D L ₂ )は、第1 種αのリスクと 2 つの自由度D D l ₁およびD Dに応じて、参照テーブルで事前に計算されます。Ｌ２ _．

「事後」テスト

分散分析を使用すると、すべてのサンプルが同じ正規分布に従うかどうかという質問に答えることができます。帰無仮説を棄却した場合、この分析ではどのサンプルがこの法則から逸脱しているかを知ることはできません。

対応するサンプルを特定するために、さまざまな「事後」テスト (または多重比較テスト、多重比較テストの場合はMCP ) を使用します。これらのテストでは通常、分析のリスク (統計的リスクの観点から) を高める必要があります。これは、誤差調整 (FDR、FWER など) を使用して 2 つのサンプルの平均を比較するためのスチューデントのt検定の k 個の母集団への一般化です。例: フィッシャーのLSDテスト、ニューマンのテスト – クールス、テューキーの HSD テスト、ボンフェローニおよびシェッフェのテスト。

特に現代生物学では、(バイオチップの分析などの) 多数のテストが実行されるにもかかわらず、MCP テストによりリスクを正確に考慮することが可能になります。

最初に分散分析を行わずに、これらの検定を直接実行してみてはいかがでしょうか。

それぞれが複数のモダリティを持つ複数の説明変数を分析すると、可能な組み合わせの数はすぐに非常に多くなります。

導入

原理

モデル