統計 – 定義

導入

統計量は、一見すると、サンプルに関して計算された数値です。一般的に言えば、これは一連のデータに統計的手法を適用した結果です。たとえば、算術平均を計算する場合、すべてのデータ値の合計を計算し、データ項目ので割るアルゴリズムが含まれます。したがって、平均は統計です。統計の使用を完全に説明するには、手順とデータセットの両方を説明する必要があります。

正式には、めったに使用されませんが、統計は特定のタイプの確率変数です。実際、それは法則のいくつかの観察から構成されるベクトルの関数です。これにより、とりわけ、2 つの統計の独立した性質を含む、確率変数に関する特定の数の結果を統計に拡張したり、統計密度を計算したりすることが可能になります。

統計の中には、統計的推定のための統計的推論などに使用される特定の特性があるものがいくつかあります。推定器は、その名前が示すように、統計パラメータを推定するために使用されます。これらの推定量の最適化には、特定の特性を検証する補助統計も含まれ、これらの推定量をより迅速に収束させることが可能になります。

統計 - 定義

推定者

推測統計では、推定量はサンプルに基づいて計算された値であり、母集団全体に基づいて計算された値の適切な評価となることが期待されます。私たちは、バイアスがなく、収束し、効率的で堅牢な推定器を求めています。

統計 - 定義

主な望ましい特性

もし

$$ {\widehat{\theta}} $$
θの推定量であり、次のようになります。

  • 次の場合に収束します
    $$ {\widehat{\theta}} $$
    観測値の数が増加すると、確率はθに近づく傾向があります。観測値の数が増えるほど、真の値に近づきます。パラメーターθ を高い精度で推定できるようにするには、推定器のこの特性が不可欠です。実際、これが当てはまる場合、推定器の精度を高めるには、より多くの測定を実行するだけで十分です。
  • 偏見がなければ、次の場合:
    $$ { \mathbb{E}(\widehat{\theta})=\theta.\, } $$
    不偏推定量は、特定のサンプルサイズに対して系統誤差が存在しない推定量とみなすことができます。逆に、バイアスのある推定量の場合、たとえば、評価しようとする量を系統的に過大評価または過小評価するパラメータθの値が存在する可能性があります。通常、観察結果が得られた場合に分散を推定するのは、偏りがないようにするためです。
    $$ {\frac{n}{n-1}\sigma^2} $$
    たとえばσ 2によるものではありません。

これら 2 つの特性は必須であり、一般的な規則として、推定が十分に正確であるとみなされるように、推定者は少なくともこれら 2 つの特性を検証する必要があると考えられます。また、推定器が効率的であること (つまり、提供される推定値が推定対象の値の周囲でできるだけ変化しないこと) または堅牢であること (つまり、測定値の変動にあまり敏感でないこと) を望むこともできます。それから)。これら 2 つのプロパティについては、以下の「推定器の最適化」と「ロバスト性」セクションで詳しく説明します。

推定量の最適化

推定量の最適化は、徹底的な統計を使用して行うことができます。 「適切な」推定量を見つけるために考えられる方法は、最適化をあまり頑張らずに、推定される値の最初の不偏推定量を取得することです。次に、徹底的な統計を使用してこの推定量を最適化します。

この方法は主に 2 つの定理に基づいています。拡張推定量と呼ばれる 2 番目のより品質の高い推定量を提供する Rao-Blackwell の定理と、この推定量が最適になるための十分な条件を与える Lehman-Scheffer の定理です。

拡張推定量とラオ・ブラックウェルの定理

δ が不偏推定量であり、S が網羅的な統計量である場合、拡張推定量は次のようになります。

$$ {\mathbb{E}(\delta |S)} $$
当初の予想よりも分散が小さく、偏りもありません。したがって、拡張された推定量は、網羅的な統計によって拡張された場合、常に最初の推定量よりも正確になります。

推定量とパラメーターの次元が 1 より大きいマルチパラメーターの場合、 分散共分散行列を考慮します。新しい推定量の二乗誤差は、使用される標準が何であれ、常に古い推定量の二乗誤差よりも低くなります。さまざまなコンポーネントが同じ方法で標準化されていない場合でも、拡張推定量が常に推奨されます。

統計 - 定義

したがって、パラメーターλ を使用してポアソンの法則に従って分散された n 個の確率変数X i を考慮し、 e − λを推定しようとします。因数分解基準を考慮すると、非常に簡単に示すことができます。

$$ { S = \sum_{i=1}^n X_{i}} $$
は網羅的な統計です。この定理の興味深い点を示すために、 e − λ : δ 0 = δ( X 1,0 )の非常に大まかな推定量を採用します。これは、 X 1 = 0の場合は 1、そうでない場合は 0 になります。この推定は、おそらく 1 の価値がない の 1 つの値のみが考慮されます (この場合、 X i は決定論的に 0 の価値があり、データを見ればこれに気づくはずです)。ただし、この推定量が粗雑であるにもかかわらず、得られた推定量は非常に優れており、それが最適であることを示すこともできます。拡張推定量には次のような価値があります。

$$ {\delta_1=\mathbb{E}(\delta_0|S).\,\!} $$

次のことがわかります。

そして、 X iの独立性により、次のようになります。

$$ {\mathbb{P}(X_1=k| \sum_{i=1}^n X_{i}=S)=\frac{\mathbb{P}(X_1=k )\mathbb{P}( \sum_{i=2}^n X_{i}=S-k)}{\mathbb{P}(\sum_{i=1}^n X_{i}=S)}} $$

X i がパラメータλポアソン則に従う場合、生成関数は価値があります。
$$ {\phi_{X_i} (t) =\ e^{\lambda(t-1)}} $$
。母関数の特性を使用して、パラメータλのポアソン則に従う n 個の変数の合計は、パラメータn λのポアソン則であると推定します。私たちは確率を推測し、
$$ {\mathbb{P}(X_1=k| \sum_{i=1}^n X_{i}=S)= C^k_S \, \frac{(n-1)^{S-k}}{n^S}} $$
X 1二項分布B(S, 1/n) です。 k=0 の値により、推定量δ 1が得られます。
$$ {\delta_1=\left(1-{1 \over n}\right)^{S}.\,\!} $$

δ 1は、δ 0 と同様、 e − λの推定量ですが、ラオ・ブラックウェルの定理の適用により、より正確になるという利点があります。実際、リーマン・シェッフェの定理を使用して、それが最適であることを示します。

とりわけ、次のことに注意してください。

$$ {\delta_2=\frac{S}{n}} $$
λの最適推定量 (これも同じ方法で示されます) ですが、 e − λの推定量は次と異なります。
$$ {e^{-\delta_2}} $$
。実際、それを示すこともできますが、
$$ {e^{-\delta_2}} $$
e − λ の収束推定量であっても、偏りがあり、この方法で推定すると推定値に系統的な誤差が生じるため、比較的品質の悪い推定量となります。一般に、 f の値をλの推定器で計算するよりも、 f (λ)を推定して特定の推定器を構築する方が興味深い場合があります。

完全な統計とリーマン・シェッフェの定理

次の場合に、統計が完全である (合計と呼ぶこともあります) と言います。

$$ {\forall \theta, \, \mathbb{E}(f(s(x)))=0} $$
ほぼどこでも f=0 を意味します。

レーマン・シェフェの定理は、FDCR の限界に達するため精度の点で改善できない最適な推定量を見つけることができるため、統計学において特に重要です。このような推定量は必ずしも存在するわけではありませんが、完全かつ全体的な統計量と偏りのない推定量δがある場合、増加した推定量は

$$ {\mathbb{E}(\delta |S)} $$
は最適ですが、これより良い推定量は見つかりません。

たとえば、パラメータλを持つ指数法則の場合、観測値の平均がλの可能な最良の推定値であることを示してみましょう。指数法則(λ,σ)X iをもつサイズ n の観測値 X のベクトルがある場合、まず次のことを示します。

$$ {S(X)=\sum_1^n X_i} $$
は網羅的で完全な統計です。

この統計が網羅的であることを示すために、因数分解定理を使用して比較的簡単に実行されます。この統計が完全であるという事実を示すには、ラプラス変換の単射性を使用する必要があります。

これが実際に完全な統計であることを示すには、次のことを検証する必要があります。

$$ {\forall \lambda\in\R^{+*}, \, \mathbb{E}(f(s(x)))=0} $$
は、ほぼどこでも f=0 であることを意味します。ガンマ則の定義により、 s(x) はパラメータ( n , λ)を持つガンマ則に従い、ガンマ則の密度に置き換えられます。

$$ {\forall \lambda\in\R^{+*}, \, \int f(y) \frac{{y^{n – 1} e^{ – \frac{y}{\lambda }} }}{{\Gamma \left( n \right) \lambda ^n }} dy=0} $$
したがって:
$$ {\forall \lambda\in\R^{+*}, \, \int f(y) y^{n – 1} e^{ – \frac{y}{\lambda }} dy=0} $$
したがって、ラプラス変換の単射性により、ほぼどこでもf ( y ) y n − 1 = 0 であると推定され、その後、ほぼどこでも f (y) = 0 となり、統計が完了します。

統計量 S が完全かつ網羅的であることが示されると、平均値の推定量が

$$ {\frac{S}{n}} $$
拡張推定量と等しい
$$ {\mathbb{E}\left(\frac{S}{n}|S\right)} $$
リーマン・シェッフェの定理のおかげで、この推定量は FDCR 限界に達するという意味で最適であり、これより良い推定量は見つからないことがすぐに推測できます。平均推定量は、指数則のパラメータに対して見つけることができる最も正確な推定量です。

  1. Statistiek – afrikaans
  2. Statistik – alémanique
  3. የዝርዝር ሂሳብ (እስታቲስቲክስ) – amharique
  4. Estatistica – aragonais
  5. إحصاء – arabe
  6. পৰিসংখ্যা – assamais

統計 – 定義・関連動画

サイエンス・ハブ

知識の扉を開け、世界を変える。