導入

統計では、ランダムなサンプルが与えられると、
- $$ { Y_i = a X_i + b, \qquad i = 1, \ldots, n } $$
線形回帰は、値aとbの推定値を決定し、線形相関係数を使用してこの関係の妥当性を定量化することで構成されます。このモデルのp 個の説明変数への一般化は次のように与えられます。
- $$ { Y_i = a_0 + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip} } $$
これは多重線形回帰と呼ばれます。

状況
経験的に観察から
点が揃って表示されます。次に、線形モデルを提案します。つまり、方程式がy i = a x i + bであり、グラフの点のできるだけ近くを通過する直線を探します。
最小二乗法に従って可能な限り近づけるということは、右からの点の偏差の二乗和を最小にすることを意味します。
- $$ { \sum_{i = 1}^n (y_i – ax_i – b)^2 \, } $$
ここで、( y i – ax i – b )² は、実験点( y i , x i )から最良と考えられる線までの垂直距離の2 乗を表します。
したがって、これは、上記の合計を最小化するパラメータaおよびb (それぞれ、線の方向係数と原点での縦座標) の値を決定することになります。
回帰結果
前の合計を最小にする線は点Gを通過し、先頭の係数を持ちます。
- $$ {y_i = \frac{S_{XY}}{S_X^2}(x_i -\overline{x})+\overline{y}} $$
どちらか
- $$ {a = \frac{S_{XY}}{S_X^2}} $$
- $$ {b = \overline{y} – \frac{\overline{x} \cdot S_{XY}}{S_X^2} = \overline{y} – a \cdot \overline{x}} $$
定義
- x iの経験的平均: $$ {\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i} $$。
- y iの経験的平均: $$ {\overline{y}=\frac{1}{n}\sum_{i=1}^n y_i} $$。
- 平均点: $$ {G(\overline{x},\overline{y})} $$。
- x iの経験的分散: $$ {S_X^2 =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2} $$。
- x iの経験的標準偏差: $$ {S_X = \sqrt{S_X^2}=\sqrt{V(x)}} $$。
- y iの経験的分散: $$ {S_Y^2 =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2} $$。
- y iの経験的標準偏差: $$ {S_Y = \sqrt{V(y)}} $$。
- x i 、 y iの経験的共分散: $$ {S_{XY} = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y}} $$。
分散の公式はニーモニックによって保持されます:二乗の平均から平均の二乗を引いたもの
共分散についても同様です。積の平均から平均の積を引いたものです。

線形相関係数
また、合計が最小になる行 D’: x = a ‘ y + b ‘ を探すこともできます。
- $$ {\sum_{i=1}^n (x_i-a’y_i-b’)^2} $$
次に、平均点 G も通過する直線を見つけます。
- $$ {a’ = \frac{S_{XY}}{S_Y^2}} $$。
私たちは明らかに同じ線上に着陸したいと考えています。これは次の場合にのみ当てはまります
- a ‘ = 1/ a 、
つまり、もし
- aa ‘ = 1。
行は次の場合にのみ結合されます。
- $$ {\frac{S_{XY}^2}{S_X^2 S_Y^2}=1} $$
つまり、もし、そしてその場合に限って
- $$ {\frac{S_{XY}}{S_X S_Y} =\pm 1} $$
これを量と呼びます
実際には、その絶対値が1 に等しくなることはほとんどありませんが、一般に、この係数が 1 または -1 にかなり近づくとすぐに調整が有効であると考えられます。
相関関係 (数学)も参照してください。
間違いがありました
線と点の間の垂直距離を ε iとすると ( x i , y i )
- $$ {\varepsilon_i = y_i – a x_i – b} $$
この場合、残差分散 σ² εの推定量は次のようになります。
- $$ {\hat{\sigma}_\varepsilon^2 = \frac{1}{n-2} \cdot \sum_{i = 1}^n \varepsilon_i^2} $$
aの分散 σ² a は次のように推定されます。
- $$ {\hat{\sigma}_a^2 = \frac{\hat{\sigma}_\varepsilon^2}{n \cdot V(x)}} $$。
私たちは、標準偏差が不明な期待値に基づいた Student テストのコンテキストにいます。与えられた信頼レベル α について、 aの誤差は次のように推定されます。
- $$ {\Delta a = \hat{\sigma}_a \cdot t^{n-2}_{(1-\alpha/2)}} $$
ここで、 t n -2 (1-α/2)は、自由度n -2 のスチューデントの法則の次数 α/2 の分位数です。
測定値y i を直線ax i + b上の点で置き換えることによって生じる誤差は次のとおりです。
- $$ {\Delta y = \hat{\sigma}_\varepsilon \cdot t^{n-2}_{(1-\alpha/2)}} $$
説明のために、いくつかの分位値を示します。
| n | 信頼レベル | |||
|---|---|---|---|---|
| 90% | 95% | 99% | 99.9% | |
| 5 | 2.02 | 2.57 | 4,032 | 6,869 |
| 10 | 1,812 | 2,228 | 3,169 | 4,587 |
| 100 | 1,660 | 1,984 | 2,626 | 3,390 |
ポイントの数が多い (100 を超える) 場合、多くの場合 3σ の誤差が考慮されます。これは 99.7% の信頼水準に相当します。
