標準偏差について詳しく解説

数学では、標準偏差は正の、場合によっては無限の実数で、確率の分野で平均値付近の確率変数の分布を特徴付けるために使用されます。特に、平均と標準偏差は、実パラメータを使用してガウス法則を完全に特徴付けるため、ガウス法則をパラメータ化するために使用されます。より一般的には、標準偏差は、分散と呼ばれる二乗を通じて、高次元のガウス法則を特徴付けることを可能にします。これらの考慮事項は、特に中心極限定理の適用において重要でないわけではありません。

統計学では、標準偏差または標準偏差は、確率変数の実現として解釈される有限セットの数値データの代わりに定義されます。これは、テストを設定するために使用されます。言い換えれば、一定の誤差を許容して配置された値を考慮して、確率が妥当であるかどうかを判断できるようになります。標準偏差は線形回帰問題でも使用されます。

標準偏差は、調査、物理学、生物学の両方で多くの用途があります。実際には、反復実験の数値結果を報告することが可能になります。

意味

アンリ・ルベーグの研究に従う現代の確率の定式化では、確率変数X は、確率法則Pに従うパラメーターxに応じて、実数値またはベクトル値を持つアプリケーションです。形式主義を理解するために測定理論が必要な場合でも、その使用法は単純です。アプリケーションX は基本的な役割を果たしません。その法則、つまりP X で示される X_によるPのイメージのみが重要です。これはRまたはR ⁿの測定値です。これには 2 つの量が関連付けられています。

その平均は E[ X ] と記され、期待値とも呼ばれます。
その標準偏差は一般^に_σで表されます

$$ {\sigma_X^2=E[(X-E[X])^2]=E[X^2]-E[X]^2} $$

。

ここで、右辺の二乗標高は、 Xがベクトル値である場合の二乗ユークリッドノルムを暗黙的に示します。

この ID は、多数の特定のケースに特化しています。特に:

離散確率

_{_{_変数}}の_場合

$$ {\sum_{i=1}^n p_i=1} $$

)、標準偏差は次の式で求められます。

$$ {\sigma = \sqrt{ \sum_{i=1}^n p_i.(x_i-\overline{x})^2} = \sqrt{ \left( \sum_{i=1}^n p_i.x_i^2 \right) – \overline{x}^2 }} $$

、または：

$$ {\overline{x}=\sum_{i=1}^n p_i.x_i} $$

。

特に、 Xの法則が有限の値セットにわたって一様である場合、次のようになります。

$$ {\sigma_X=\sqrt{ \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2} = \sqrt{ \frac{1}{n}\left( \sum_{i=1}^n x_i^2 \right) – \overline{x}^2 }} $$

、または：

$$ {\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i} $$

。

これらの式は、標高の 2 乗をユークリッドノルムの 2 乗に置き換えることで、すぐに高次元に一般化されます。

一様連続確率

法則P _{X は}、 X がセグメント [a,b] に属する確率が次の場合に一様連続であると言われます。

$$ {P_x((a,b))=P(X\in (a,b))=\int_a^b f(x)dx} $$

ここで、 f は、たとえばルベーグ測度の局所的に積分可能な関数ですが、連続関数である必要はありません。この関数f は_法則Pの密度と呼ばれます。グローバルに積分可能であり、平方積分可能です。

Xの標準偏差は次のように定義されます。

$$ {\sigma_X=\sqrt{\int_{R} f(x)^2dx-{\left(\int_{R}f(x)dx\right)}^2}} $$

。

標準偏差の例

次の表は、一般的に発生する法則の標準偏差を示しています。

法律の名前	設定	説明	標準偏差
ベルヌーイの法則	p	値 0 の確率 1- pと 1 の確率pの離散法則	$$ {\sigma=\sqrt{p(1-p)}} $$
二項法則	pとn >1	パラメーターp を使用したベルヌーイの法則に従ったn変数の独立和の法則	$$ {\sigma=\sqrt{n.p.(1-p)}} $$
幾何学の法則	p	整数n を取得する確率が (1- p ) となるようなNに関する離散法則。プン	σ = p / (1 − p ) ²
セグメントに関する統一法則	a < b	密度のRに関する一様連続法則 [a,b] の指標関数(係数まで)	$$ {\sigma=\frac{b-a}{\sqrt{12}}} $$
指数法則	p	一様連続サポート則R ₊密度関数 f(x)=p.exp(-px)	σ = 1 / p

計算

…

世論調査理論では

サイズ n のサンプルから大規模な母集団における統計的特徴の平均値付近の分散を推定する場合、標準偏差として次の値を使用します。

$$ {s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}} $$

。

注目すべき点は、

$$ {s = \sigma\sqrt{\frac{n}{n-1}}} $$

なぜn – 1 なのでしょうか?

私たちがよく抱く質問は、「なぜn – 1 なのか?」というものです。 nではなくn – 1で割る理由は、統計と確率の間に進行中の相互作用を示す好例です。

n人の個人の調査は、期待値E ( X ) と分散V ( X ) を持つ一連のn 個の独立した確率変数x _iに対応します。

平均

$$ {\overline{x}} $$

サンプルのは期待値E ( X ) と分散を持つ確率変数です

$$ {\frac{1}{n} \cdot V(X)} $$

( n 個の確率変数の平均の変動は、単一の確率変数よりも小さくなります)。

標本分散v は、その期待値を計算したい確率変数です。

$$ {v=\left(\frac{1}{n}\sum x_i^2\right) – \overline{x}^2} $$

。

$$ {x_i^2} $$

はランダムな期待変数です

$$ {E(x_i^2) = E(x_i)^2 + V(x_i)} $$

したがって、 E ( X ) ² + V ( X )と等しくなります。

$$ {\frac{1}{n}\sum x_i^2} $$

は、期待値E ( X ) ² + V ( X )を持つ確率変数です。

$$ {\overline{x}^2} $$

はランダムな期待変数です

$$ {E(\overline{x})^2+V(\overline{x})=E(X)^2+\frac{1}{n}V(X)} $$

。

それで

$$ {E(v) = E(X)^2+V(X) – E(X)^2-\frac{1}{n}V(X)=\frac{n-1}{n}V(X)} $$

。

したがって、標本分散v は次のように変動します。

$$ {\frac{n-1}{n}V(X)} $$

予想されるようなV ( X ) 付近ではありません。

したがって、 V ( X ) の推定値を取得するには、次のようにする必要があります。

$$ {\frac{n}{n-1}v} $$

。 v は偏った推定量であると言えます。

標準偏差σ( X )の推定値を取得するには、次のようにする必要があります。

$$ {\sigma \sqrt{\frac{n}{n-1}}} $$

。

定性的側面

より一般的には標準偏差と呼ばれ、標準偏差は分布の幅を特徴づけます。これは、曲線の中心付近の値の分布を測定する分散の平方根として数学的に表現されます。

標準偏差(S) = 分散の平方根

標準偏差は分散または広がりの尺度であり、統計で平均を使用して中心傾向を計算するときに最も一般的に使用されます。したがって、平均値付近の分散を測定します。標準偏差は平均と密接に関係しているため、後者が中心傾向の尺度を不十分に示している場合、標準偏差は大きな影響を受ける可能性があります。

範囲や四分位とは異なり、分散はデータセット内のすべての値を組み合わせて分散の尺度を取得します。分散 (S² で表される) と標準偏差(S で表される分散の平方根) は、分散の最も一般的に使用される尺度です。

分散は、観測値と平均値の差の二乗の算術平均として定義されます。これは、データセットの分散度の尺度です。これは、一連のデータの平均からの各数値の平均二乗偏差として計算されます。

人口分布

研究対象の変数がガウス (釣鐘曲線に従った分布) である場合、標準偏差によって平均値の周囲の母集団の分布を決定することができます。

例: 慣例により、サンプルからの標準偏差が 15 IQ ポイントの差に相当する場合、これは、ある年齢グループの人口の約 2/3 が 85 ～ 115 の IQ を持っていることを意味します。この主題については信頼度も参照してください。ガウス正規分布の間隔。

高い標準偏差の解釈

一般に、値が広く分布するほど、標準偏差は高くなります。たとえば、30 人の学生から 2 つの異なる試験結果セットを分離する必要があると想像してください。最初の試験の得点は 31% ～ 98% であり、2 回目の試験の得点は 82% ～ 93% です。これらの範囲を考慮すると、最初の試験結果の標準偏差は大きくなります。

ただし、データが広く分散するために標準偏差をどのくらいの大きさにすればよいかを評価するのは必ずしも簡単ではありません。
標準偏差の重要性は、すべてのデータの平均値の重要性にも依存します。何かを何百万単位で測定する場合、平均値に近い測定結果は、2 人の体重を測定する場合と同じ意味を持ちません。
たとえば、2 つの大企業の年間収益を測定した後、100,000 ユーロの差があることに気付いた場合、その差は重要ではないとみなされますが、2 人の体重を測定した場合、その差が 30 キログラムであった場合、その差は重要であるとみなされます。非常に重要なことになります。
このため、場合によっては、相対標準偏差 (平均値による標準偏差商) を使用すると便利なことがあります。

分散を標準偏差の二乗と呼びます: V ( X ) = σ ²

意味