線形回帰について詳しく解説

導入

グラフィックの例

統計では、ランダムなサンプルが与えられると、

$$ { (Y_i, X_i), \, i = 1, \ldots, n } $$

単純な回帰モデルは、 Y _iとX _iの間に次のアフィン関係を仮定します。

$$ { Y_i = a X_i + b, \qquad i = 1, \ldots, n } $$

線形回帰は、値aとbの推定値を決定し、線形相関係数を使用してこの関係の妥当性を定量化することで構成されます。このモデルのp 個の説明変数への一般化は次のように与えられます。

$$ { Y_i = a_0 + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip} } $$

これは多重線形回帰と呼ばれます。

状況

経験的に観察から

$$ { (y_i, x_i), \, i = 1, \ldots, n } $$

、たとえば、年齢x _iの関数としての子供の身長y _iなど、ある数量y _iの測定値を別のx _iの関数として表すこれらすべての点をグラフで表しました。

点が揃って表示されます。次に、線形モデルを提案します。つまり、方程式がy _i = a x _i + bであり、グラフの点のできるだけ近くを通過する直線を探します。

最小二乗法に従って可能な限り近づけるということは、右からの点の偏差の二乗和を最小にすることを意味します。

$$ { \sum_{i = 1}^n (y_i – ax_i – b)^2 \, } $$

ここで、( y _i – ax _i – b )² は、実験点( y _i , x _i )から最良と考えられる線までの垂直距離の2 乗を表します。

したがって、これは、上記の合計を最小化するパラメータaおよびb (それぞれ、線の方向係数と原点での縦座標) の値を決定することになります。

回帰結果

前の合計を最小にする線は点Gを通過し、先頭の係数を持ちます。

$$ {\frac{S_{XY}}{S_X^2}} $$

。したがって、その方程式は次のようになります。

$$ {y_i = \frac{S_{XY}}{S_X^2}(x_i -\overline{x})+\overline{y}} $$

どちらか

$$ {a = \frac{S_{XY}}{S_X^2}} $$

$$ {b = \overline{y} – \frac{\overline{x} \cdot S_{XY}}{S_X^2} = \overline{y} – a \cdot \overline{x}} $$

定義

x _iの経験的平均:
$$ {\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i} $$
。
y _iの経験的平均:
$$ {\overline{y}=\frac{1}{n}\sum_{i=1}^n y_i} $$
。
平均点:
$$ {G(\overline{x},\overline{y})} $$
。
x _iの経験的分散:
$$ {S_X^2 =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2} $$
。
x _iの経験的標準偏差:
$$ {S_X = \sqrt{S_X^2}=\sqrt{V(x)}} $$
。
y _iの経験的分散:
$$ {S_Y^2 =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2} $$
。
y _iの経験的標準偏差:
$$ {S_Y = \sqrt{V(y)}} $$
。
x _i 、 y _iの経験的共分散:
$$ {S_{XY} = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y}} $$
。

分散の公式はニーモニックによって保持されます:二乗の平均から平均の二乗を引いたもの

共分散についても同様です。積の平均から平均の積を引いたものです。

線形相関係数

また、合計が最小になる行 D’: x = a ‘ y + b ‘ を探すこともできます。

$$ {\sum_{i=1}^n (x_i-a’y_i-b’)^2} $$

次に、平均点 G も通過する直線を見つけます。

$$ {a’ = \frac{S_{XY}}{S_Y^2}} $$

。

私たちは明らかに同じ線上に着陸したいと考えています。これは次の場合にのみ当てはまります

a ‘ = 1/ a 、

つまり、もし

aa ‘ = 1。

行は次の場合にのみ結合されます。

$$ {\frac{S_{XY}^2}{S_X^2 S_Y^2}=1} $$

つまり、もし、そしてその場合に限って

$$ {\frac{S_{XY}}{S_X S_Y} =\pm 1} $$

これを量と呼びます

$$ {R = \frac{S_{XY}}{S_X S_Y} } $$

xとy の間の線形相関係数。この数値は常に -1 と 1 の間にあることがわかります。

実際には、その絶対値が1 に等しくなることはほとんどありませんが、一般に、この係数が 1 または -1 にかなり近づくとすぐに調整が有効であると考えられます。

相関関係 (数学)も参照してください。

間違いがありました

線と点の間の垂直距離を ε _iとすると ( x _i , y _i )

$$ {\varepsilon_i = y_i – a x_i – b} $$

この場合、残差分散 σ² _εの推定量は次のようになります。

$$ {\hat{\sigma}_\varepsilon^2 = \frac{1}{n-2} \cdot \sum_{i = 1}^n \varepsilon_i^2} $$

aの分散 σ² _{a は}次のように推定されます。

$$ {\hat{\sigma}_a^2 = \frac{\hat{\sigma}_\varepsilon^2}{n \cdot V(x)}} $$

。

私たちは、標準偏差が不明な期待値に基づいた Student テストのコンテキストにいます。与えられた信頼レベル α について、 aの誤差は次のように推定されます。

$$ {\Delta a = \hat{\sigma}_a \cdot t^{n-2}_{(1-\alpha/2)}} $$

ここで、 t ^{n -2} _(1-α/2)は、自由度n -2 のスチューデントの法則の次数 α/2 の分位数です。

測定値y _{i を}直線ax _i + b上の点で置き換えることによって生じる誤差は次のとおりです。

$$ {\Delta y = \hat{\sigma}_\varepsilon \cdot t^{n-2}_{(1-\alpha/2)}} $$

説明のために、いくつかの分位値を示します。

学生法分位の例
n	信頼レベル
n	90%	95%	99%	99.9%
5	2.02	2.57	4,032	6,869
10	1,812	2,228	3,169	4,587
100	1,660	1,984	2,626	3,390

ポイントの数が多い (100 を超える) 場合、多くの場合 3σ の誤差が考慮されます。これは 99.7% の信頼水準に相当します。

導入

状況

回帰結果

定義

線形相関係数

間違いがありました

参考資料

線形回帰について詳しく解説・関連動画