ポジション基準 - 定義 - サイエンス・ハブ

この記事はシリーズの一部です
小学校数学

代数

分析

算術

ジオメトリ

論理

確率

統計的

統計的性質の数値は次のように分布します。

$$ {\mathbb{R}} $$

、それらの位置を定義する必要があります。

統計では、通常、多数の値に直面します。ただし、これらすべての値が情報を構成する場合、数百、さらには数千の数字を操作したり、そこから結論を導き出すのは簡単ではありません。したがって、データを分析できるようにするためにいくつかの値を計算する必要があります。

物理的測定(計測学) では、一般に 2 つの値を計算します。1 つは測定値の「値」を表す平均値、もう 1 つは測定誤差を推定する標準偏差です。他の領域では、値の分布をさらに詳しく説明する必要があるため、他の位置を計算します。

最大値と最小値

最大値は、統計的特徴によってとられる最大値です。

最小値は、統計的性質によってとられる最小値です。

中央値

中央値は、母集団を同じサイズの 2 つの母集団に分割する統計的特徴の値です。

離散変数の場合

値を昇順に並べ替えます。

母集団に n 人の個人が含まれており、n が奇数の場合、n = 2p+1 となり、中央値は統計的特徴の (p+1)^番目の値になります。

例: 一連の 13音符4、5、7、8、8、9、10、10、10、11、12、13、16。

中央値 = M = 10

母集団に n 人の個人が含まれており、n が偶数の場合、n = 2p となり、中央値は統計的特徴の p ^e値と (p+1) ^e値の間の平均になります。

例: 一連の12 音符: 4、5、7、8、8、9、10、10、10、11、13、16 。

中央値 = M = 9.5

連続変数の場合

増加する累積頻度の多角形と対応するテーブルを使用し、グラフまたは線形補間によって、間隔 [最小値、M] の頻度が 50% となる値 M を決定します。

増加する累積頻度ポリゴンの使用

連続初等統計で開発された例では、累積頻度多角形は次のようになります。

方程式y = 50 の直線は、ほぼ横座標 21 の点で多角形と交差します。M

$$ {\approx} $$

21.

注: 増加する累積頻度の多角形と減少する累積頻度の多角形は、横軸が中央値である点で正確に交差します。

累積増加頻度テーブルの使用

前の例では、増加する累積頻度のテーブルは次のとおりです。

x _i	0	8	12	16	20	30	40	60
累積頻度の増加	0	7	12.3	21.1	48.1	81.7	94.7	100

50% は 20 ～ 30 の間で達成されます。したがって、値 M は次のように推定されます。

$$ {20+10\frac{50-48,1}{81,7-48,1}= 20,56} $$

線形補間による。

平均

ソートされているがグループ化されていない離散統計系列のケース

$$ {\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i} $$

この公式については、「離散初等統計」の記事で説明されています。

グループ化された離散統計系列の場合

$$ {\overline{x}=\frac{\sum_{i=1}^{N}n_ix_i}{\sum_{i=1}^Nn_i}=\sum_{i=1}^Nf_ix_i} $$

この公式については、「離散初等統計」の記事で説明されています。

継続シリーズの場合

$$ {*\overline{x}=\frac{\sum_{i=1}^{N}n_im_i}{\sum_{i=1}^Nn_i}=\sum_{i=1}^Nf_im_i} $$

この公式については、「連続初等統計」の記事で説明されています。

アフィン変換による安定性

平均はアフィン変換によって安定します。つまり、 if y _i = a x _i + b 、if

$$ {\overline{x}} $$

が系列 x の平均である場合、系列 y の平均は次のようになります。

$$ {\overline{y} = a\overline{x}+b} $$

。

このプロパティは単位を変更するのに役立ちます。平均気温が華氏でわかっている場合、平均を摂氏で計算するためにすべての値を摂氏に変換する必要はなく、平均のみを変換するだけで十分です。

数値のサイズを制限して、推定平均から開始してd _i = x _i − M _{e s t i mの平均を計算することも興味深いです。} 。それで

$$ {\overline{x} = M_{estim.} + \overline{d}} $$

部分母集団の分割

母集団がサイズn ₁およびn ₂の 2 つの部分母集団P ₁およびP ₂に分割される場合、母集団P ₁の統計的特徴の平均は次のようになります。

$$ {\overline{x_1}} $$

そして母集団P ₂の平均は次のようになります。

$$ {\overline{x_2}} $$

この場合、母集団 P の平均は次のようになります。

$$ {\overline{x} = \frac{n_1\overline{x_1}+n_2\overline{x_2}}{n_1+n_2}} $$

。

極端な値に対する敏感さ

平均は、極端な値または外れ値の影響を受けやすくなります。

例: ある会社では、9 人の従業員に月給 2000 ユーロが支払われています。上司は月々 22,000 ユーロを自分自身に支払っています。

これらの条件下で平均を実行すると、代表的な値が得られません。

$$ {\overline{x}=\frac{9\times2000+22000}{10}=4000} $$

ユーロ。

このタイプの罠を回避するために、母集団を意図的に切り捨てて、最低値の 10% と最高値の 10% を削除することがあります。

ファッション

最頻値は、最も頻繁に現れる統計的特徴の値です。

*例 1: 学生の成績*
メモx _i	5	8	9	10	11	12	13	14	16	合計
従業_員数	1	1	2	4	3	2	1	1	1	16

モードは10です。

*例 2: 学生の成績*
メモx _i	5	8	9	10	11	12	13	14	16	合計
従業_員数	1	1	4	2	2	4	1	1	1	16

このシリーズは、9 と 12 という 2 つのモードが表示されるため、二峰性シリーズと呼ばれます。

連続変数の場合、最も人数が多いクラスであるモーダルクラスについての話を聞くことができます。しかし、この概念には注意が必要です。なぜなら、クラスが大きければ大きいほど、その数はそれほど重要ではないからです。クラスのサイズによって定義されるモーダルクラスの概念は、クラスが同じ振幅を持つ場合にのみ意味を持ちます。振幅が異なる場合は、ヒストグラム上で最大の高さの長方形に関連付けられたクラスを探す必要があります。

例: Continuous Basic Statistics で開発された例は、次の表につながります: 人口 4370 人の年収 (数千ユーロ) の分布。
賃金	0 (両端を含む) ～ 8 を除く	8 (両端を含む) から 12 を除くまでの間	12 (両端を含む) から 16 を除くまでの間	16 (両端を含む) から 20 を除くまでの間	20 (両端を含む) ～ 30 を除く	30 (含む) ～ 40 を除く	40 (両端を含む) から 60 を除くまでの間	合計
労働力	306	231	385	1180	1468年	568	232	4370

このテーブルを観察すると、モーダルクラスはクラス [20;30[] になることがわかります。しかし、ヒストグラムを観察すると、この誤解が正されます。

モーダルクラスはクラス [16; 20[

四分位数

四分位数は、母集団を同じサイズの 4 つの部分母集団に分割する 3 つの値です。

離散変数の場合

値を昇順に並べます。

中央値に対応する 2 番目の四分位を決定します。次に、第 1 四分位に対応する人口の前半の中央値を探します。第 3 四分位に相当する人口の後半の中央値を探します。

母集団のサイズが n の場合、4 つのケースが区別されます。

n = 4 pの場合

Q1 = p ^{e 値}と (p+1) ^e値の間の平均。

Q2 = (2p)^番目の値と (2p+1)^番目の値の間の平均。

Q3 = (3p)^番目の値と (3p+1)^番目の値の間の平均。

例:一連の12音符: 4、5、7、8、8、9、10、10、10、11、13、16

Q1= 7.5

Q2= 9.5

第 3 四半期 = 10.5

n = 4 p +1の場合

Q1 = p ^{e 値}と (p+1) ^e値の間の平均。

Q2 = (2p+1)^番目の値。

Q3 = (3p+1)^番目の値と (3p+2)^番目の値の間の平均。

例:一連の13音符4、5、7、8、8、9、10、10、10、11、12、13、16

Q1= 7.5

Q2= 10

第 3 四半期 = 11.5

n = 4 p +2 の場合

Q1 =(p+1)^番目の値。

Q2 = (2p+1)^番目の値と (2p+2)^番目の値の間の平均。

Q3 = 3p+2)^番目の値。

例:一連の14音符4、5、7、8、8、9、9、10、10、10、11、12、13、16

Q1=8

Q2= 9.5

第 3 四半期 = 11

n = 4 p +3 の場合

Q1 =(p+1)^番目の値。

Q2 = (2p+2)^番目の値。

Q3 = (3p+3)^番目の値。

例:一連の15 音符4、5、7、8、8、9、9、10、10、10、11、11、12、13、16

Q1=8

Q2= 10

第 3 四半期 = 11

離散変数の便利な近似

値を昇順に並べます。

Q1 は、区間 [x min, Q1] に母集団の少なくとも 25% が含まれる最初の値です。

Q2 は、区間 [x min, Q2] に母集団の少なくとも 50% が含まれる最初の値です。

Q3 は、区間 [x min, Q3] に母集団の少なくとも 75% が含まれる最初の値です。

前の例を使用すると、次のようになります。

n=12 の場合: n=3 の 25%、n=6 の 50%、n=9 の 75%。

一連の音符は4、5、7、8、8、9、10、10、10、11、13、16です。

Q1 = 7、Q2 = 9、Q3 = 10

n = 13 の場合: 13 の 25% = 3.25、13 の 50% = 6.5、13 の 75% = 9.75 となり、次の整数に切り上げられます。

一連の音符は4、5、7、8、8、9、10、10、10、11、12、13、16です。

Q1 = 8、Q2 = 10、Q3 = 12

この近似により定義が非対称になり、第 2 四分位が中央値に対応しなくなり、得られた値が前の定義の値と異なることがわかります。その利点は、4 つの場合を区別する必要がなく、(近似) 四分位数の検索が容易になることです。どちらかの方法で得られる差異は無視できるほど小さいことが判明し、この近似の使用が正当化されます。

連続変数の場合

四分位数は、増加する累積度数の多角形を使用してグラフィカルに、および対応するテーブルを使用した線形補間によって中央値として計算されます。

増加する累積頻度ポリゴンの使用

方程式の直線 y = 25、y = 50、および y = 75 は、x 座標が約 17、21、28 の点で多角形と交差します。

累積増加頻度テーブルの使用

増加する累積頻度の表は次のとおりです。

x _i	0	8	12	16	20	30	40	60
累積頻度の増加	0	7	12.3	21.1	48.1	81.7	94.7	100

区間 [16;20] で 25% に達します。つまり、線形補間によって取得された Q1 の値の場合です。

$$ {Q1 =16+4\frac{25-21,1}{48,1-21,1}=16,57} $$

。

Q2 =M =20.56。

区間 [20;30]、つまり線形補間によって取得された Q3 の値では 75% に達します。

$$ {Q3 =20+10\frac{75-48,1}{81,7-48,1}=28,00} $$

。

十分位数

十分位数は、母集団を同じサイズの 10 個の部分母集団に分割する 9 つの値です。

離散変数の場合

ここでは近似によって作業します。n 番目の^十分位数D _{n は}、区間 [xmin, D _n ] が母集団の少なくとも n/10 をグループ化するような文字の最初の値です。

例一連の 30 音符、 ⁹十分位 = ^{27 番目}の値。

4、5、6、7、7、7、8、8、8、8、9、9、9、10、10、10、10、10、11、11、11、12、12、12、13、 13、14、14、15、16

D9 ₌ 14

連続変数の場合

累積度数が増加する多角形をグラフィカルに使用し、対応するテーブルを使用した線形補間によって、中央値や四分位数などの十分位数を計算します。

増加する累積頻度ポリゴンの使用

方程式 y = 10、y = 20 … y = 90 の線は、横軸がおよそD ₁ =10.5、 D ₂ = 15.5… D ₉ =36、5 である点で多角形と交差します。

累積増加頻度テーブルの使用

増加する累積頻度の表は次のとおりです。

x _i	0	8	12	16	20	30	40	60
累積頻度の増加	0	7	12.3	21.1	48.1	81.7	94.7	100

区間 [8;12]、つまり線形補間によって得られたD ₁の値で 10% に達します。

$$ {D_1 =8+4\frac{10-7}{12,3-7}=10,26} $$

。

区間 [12,16]、つまり線形補間によって得られたD ₂の値で 20% に達します。

$$ {D_2 =12+4\frac{20-12,3}{21,1-12,3}=15,50} $$

。

区間 [30;40]、つまり線形補間によって得られたD ₉の値で 90% に達します。

$$ {D_9 = 30+10\frac{90-81,7}{94,7-81,7}=36,38} $$

。

ポジション基準 – 定義

最大値と最小値

中央値

離散変数の場合

連続変数の場合

増加する累積頻度ポリゴンの使用

累積増加頻度テーブルの使用

平均

ソートされているがグループ化されていない離散統計系列のケース

グループ化された離散統計系列の場合

継続シリーズの場合

アフィン変換による安定性

部分母集団の分割

極端な値に対する敏感さ

ファッション

四分位数

離散変数の場合

n = 4 pの場合

n = 4 p +1の場合

n = 4 p +2 の場合

n = 4 p +3 の場合

離散変数の便利な近似

連続変数の場合

増加する累積頻度ポリゴンの使用

累積増加頻度テーブルの使用

十分位数

離散変数の場合

連続変数の場合

増加する累積頻度ポリゴンの使用

累積増加頻度テーブルの使用

参考資料

ポジション基準 – 定義・関連動画