パレート分布について詳しく解説

**パレート**
確率密度/質量関数 x _m = 1 の数kの質量関数。横軸はパラメーターxを表します。 k ->∞ の場合、分布は δ( x − x _m ) に近づきます。ここで、δ はディラックデルタ関数です。
分布関数 x _m = 1 の数kの分布関数。横軸はパラメータxを表します。
設定	x _m > 0レンタル (実数) k > 0形式 (実数)
サポート	$$ {x \in [x_m; +\infty)\!} $$
確率密度(質量関数)	$$ {\frac{k\,x_m^k}{x^{k+1}}\!} $$
分布関数	$$ {1-\left(\frac{x_m}{x}\right)^k\!} $$
希望	$$ {\frac{k\,x_m}{k-1}\!} $$ k > 1の場合
中央値（中央）	$$ {x_m \sqrt[k]{2}} $$
ファッション	×_メートル
分散	$$ {\frac{x_m^2k}{(k-1)^2(k-2)}\!} $$ k > 2の場合
非対称性（歪み）	$$ {\frac{2(1+k)}{k-3}\,\sqrt{\frac{k-2}{k}}\!} $$ k > 3の場合
尖度(非標準化)	$$ {\frac{6(k^3+k^2-6k-2)}{k(k-3)(k-4)}\!} $$ k > 4の場合
エントロピ	$$ {\ln\left(\frac{k}{x_m}\right) – \frac{1}{k} – 1\!} $$
モーメント発生機能	定義されていません
特徴的な機能	k ( − i x _m t ) ^k Γ( − k , − i x _m t )

パレート分布は、パレートの法則を形式化したもので、 80-20原則、 ABC曲線とも呼ばれます。

この意思決定支援ツールは、目標の大部分 (80%) に影響を与える重要な要素 (約 20%) を決定します。

歴史的

イタリアの経済学者ヴィルフレド・フェデリゴ・ダマソ・パレート（1848～1923）は、 20^世紀初頭にイタリアの人口の20％が国富の80％を所有していると観察したため、80対20または20対80の法則の名前が付けられました。

この観察は後にジョセフ・ジュランによって一般化されました。

形式主義

確率変数X がパラメーター ( x _min , k ) を持つパレートの法則に従うとすると、分布は次のように特徴付けられます。

$$ {{\rm P}(X width=} $$

x)=\left(\frac{x}{x_{\min}}\right)^{-k}” > with

$$ {x \geq x_{\min}} $$

アプリケーション

この法律は品質管理の基本的なツールです。再保険にも使われています。 1990 年代の研究で、この法則がインターネットトラフィック (より一般的にはすべての高速データネットワーク) で観察される多くの量にも影響を与えることが示されたため、キュー理論がこの分布に関心を持つようになりました。この現象は、システム (特にルーター) のパフォーマンスに重大な影響を及ぼします。

例

課税: 課税対象の国民の 20% が国庫の 80% を生み出します。
スポーツ: トレーニングの 20% の努力で、パフォーマンスの 80% を達成できます。
アフターサービス: 苦情の 80% は 20% の顧客から来ています
管理制御: 指標の 20% が情報の 80% を提供します。多くの場合、迅速な決定を迫られるため、マネージャーは、遅すぎる完全な情報よりも、適切なタイミングで部分的な情報を好むでしょう。この観察は、ダッシュボード設計者の注目を集めるでしょう。そこでは、関連する指標のみを統合することをお勧めできます。つまり、会社が設定された目標の達成に向けて正しい軌道に乗っていることを確認できるだけでなく、すぐに利用できるようになります（情報を入手するコストは無視してください）。ただし、マネージャーには自らの決定に責任があるため、入手可能な情報の相対的な不正確さに関連するリスクを測定する必要があることに留意する必要があります。
インターネットトラフィック: 交換されるファイルのサイズ、FTP または HTTP セッションの継続時間などは、パレート分布に近い分布を持ちます。

確率分布

パレート分布は連続分布です。ゼータ分布とも呼ばれるジップの法則は、パレートの法則の離散的等価物と考えることができます。

パレート分布に従う確率変数Xが与えられた場合、 Xが実際のxより大きい確率は次の式で求められます。

$$ {P(X width=} $$

x)=\left(\frac{x}{x_\mathrm{m}}\right)^{-k}” >

すべてのx ≥ x _mに対して、 x _mはXが取り得る最小 (正の) 値、 k は正の実数です。

したがって、 Xの確率密度は次のようになります。

$$ {f(x;k,x_\mathrm{m}) = k\,\frac{x_\mathrm{m}^k}{x^{k+1}}\ \mbox{pour}\ x \ge x_\mathrm{m}. \,} $$

パレート分布は、2 つのパラメーターx _mとkによって定義されます。パラメーターk は、パレート指数と呼ばれることがよくあります。

瞬間

パレートの法則に従う確率変数の期待値は次のとおりです。

$$ {E(X)=\frac{kx_m}{k-1} \,} $$

( k ≤ 1 の場合、期待値は無限大であることに注意してください)。

その分散は

$$ {\mathrm{var}(X)=\left(\frac{x_m}{k-1}\right)^2 \frac{k}{k-2}} $$

(もう一度言います: もし

$$ {k \le 2} $$

、分散は無限大です）。

高次モーメントは次のように与えられます。

$$ {\mu_n’=\frac{kx_\mathrm{m}^n}{k-n} \,} $$

ただし、それらはk > nに対してのみ定義されます。

これは、母関数 ( μ _n ‘/ n !を係数とするxのテイラー級数) が定義されていないことを意味します。このプロパティは通常、「ヘビーテール」特性を持つ確率変数に当てはまります。

特性関数は次のように与えられます。

$$ {\varphi(t;k,x_m)=k(-ix_m t)^k\Gamma(-k,-ix_m t)} $$

ここで、Γ(a,x) は不完全なガンマ関数です。

パレート分布は、次の点で指数分布に関連付けられます。

$$ {f(x;k,x_\mathrm{m})=\mathrm{Exponentielle}(\ln(x/x_\mathrm{m});k)\,} $$

ディラックデルタ関数は、パレート分布の限定的なケースです。

$$ {\lim_{k\rightarrow \infty} f(x;k,x_\mathrm{m})=\delta(x-x_\mathrm{m}).} $$

プロパティ

パレート分布は裾が重いです。これは次のことを意味します。

$$ {\lim_{x\rightarrow \infty} P(X width=} $$

x+y|X>x)=1″ > y > 0 の場合。

たとえば、次の場合

パラメータ推定

尤度関数: 最尤度: 指数推定: ヒル推定器