ベンフォードの法則、または発見されると驚くべき異常な数の法則は、日常生活では数字 1 が 2 よりも頻繁に存在し、それ自体が 3 よりも頻繁に存在することを示しています。
一般に、法則は、測定結果の小数点第 1 位dの出現頻度の理論値f を、単位で与えられる基数bで表します。
- $$ {f = \log_{b} \left(1 + \frac 1 d\right )} $$
10進法
特に、10 進法 (基数 10) の場合、次のようになります。
- $$ {f = \log_{10} \left(1 + \frac 1 d\right )} $$
これにより、次の結果表が得られます。
| d | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|
| f | 30.1 | 17.6 | 12.5 | 9.7 | 7.9 | 6.7 | 5.8 | 5.1 | 4.6 |
| d | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|
| f | 30.1 | 47.7 | 60.2 | 69.9 | 77.8 | 84.5 | 90.3 | 95.4 | 100 |
また、有効数字の 2 桁目に関して、最初の桁が慎重に過剰表示されることもあります。この過剰なプレゼンテーションは、それを超えると打ち消される傾向があります。
この法則を示す例は数多くあります。最初の 100 個の正方形のシーケンスを取ると、1 で始まる数字の頻度は、2、3、4 などで始まる正方形の頻度よりも大幅に高くなります。ランダムに (広い間隔で) 抽出された 2 つまたは 3 つの数字の積である 100 個の数字のリストを構成すると、やはり 1 で始まる数字の頻度が他の頻度よりも大幅に高くなります。
ベンフォードの法則が規定するとおりに正確に収束する数値列は、実際には非常にまれです。その中でも、フィボナッチ数列、つまり n! の数列を挙げることができます。現実の世界では、最初の数字に続く確率の減少が広く観察されています。しかし、ベンフォードの法則の値への収束はおおよそのものにすぎません。
逆に、データ系列に確率値のスケールに関する制約が含まれている場合、この法則は検証されません。ほぼすべての測定値が数字「1」で始まるため、個人のサイズは明らかにベンフォードの法則に従いません。

説明
ベンフォードの法則の正確な形式は、数値の対数が一様に分布していると仮定すると説明できます。これは、数値が10,000 ~ 100,000 (4 ~ 5 の対数) になる可能性が高いのと同じくらい、100 ~ 1000 (2 ~ 3 の間の対数) の間にある可能性が高いことを意味します。多くの数値セット、特に企業収益や株価など、指数関数的に増加する数値セットでは、この仮定は合理的です。
ベンフォードの法則の証明草案
区間Iに属する厳密に正の実数を選択しましょう。
他の特性とは無関係に、最初の非ゼロ桁の確率を求めます。
これは、測定可能であると想定される集合I上の測定値mの検索に対応します。
- $$ {P(\mathrm{1^{er}~chiffre = 1}) = \frac{m( I\cap\{\ldots\cup[10;20[\cup[1;2[\cup[0.1;0.2[\cup[0.01;0.02[\cup[0.001;0.002[\cup\ldots\})}{m(I)}} $$
- $$ {P(\mathrm{1^{er}~chiffre = 2}) = \frac{m( I\cap\{\ldots\cup[20;30[\cup[2;3[\cup[0.2;0.3[\cup[0.02;0.03[\cup[0.002;0.003[\cup\ldots\})}{m(I)}} $$
- $$ {P(\mathrm{1^{er}~chiffre = 3}) = \frac{m( I\cap\{\ldots\cup[30;40[\cup[3;4[\cup[0.3;0.4[\cup[0.03;0.04[\cup[0.003;0.004[\cup\ldots\})}{m(I)}} $$
- 等
I は区間 [1;10[ と実数a i > 0 ; の積の和集合として構築されると仮定します。つまり、 I = ∪ a i × [1;10[ for a i > 0 .したがって、厳密に正の実数の乗法グループで作業します (これがこのグループのトポロジーの構築方法であるため)。
分離可能で局所的にコンパクトな位相群 である乗算を備えた厳密に正の実数のセットには、群の法則によって不変な唯一の尺度 (乗数係数内) が存在します。つまり、群のハール尺度です。
この測定は、
I = [1;10[ とすれば、次のようになります。
- $$ {m(I) = \int_1^{10} \frac{\mathrm dx}{x} = \ln(10) – \ln(1) = \ln(10)} $$
そして、私たちは次のものを持っています:
- $$ {P(\mathrm{1^{er}~chiffre} = k) = \frac{m( [k;k+1[)}{m(I)} = \ldots = \frac{\ln(k+1)-\ln(k)}{\ln10} = \frac{\ln(1+\frac{1}{k})}{\ln10}} $$
測度m は積によって不変であるため、 a i = 10 nでI = ∪ a i × [1;10[を取ることにより、同じ結果に達します (計算によって検証することもできます)。
パリ大学のウェブサイトに公開されている作品を基に作成された草稿 5 [ 1 ] 。これら 2 つの説明には、ハール尺度を使用する必要性についての説得力のある議論が欠けています。

歴史的
この分布は、1881 年にアメリカの天文学者サイモン ニューカムによって初めて発見されました。彼は、対数表 (その後作品として編集された) の最初のページが優先的に磨耗 (したがって使用) されていることに気づきました。フランク・ベンフォードは 1938 年頃、何万ものデータ (河川の長さ、株価など) を列挙した後、同じ結果に到達し、法律に彼の名前を与えました。
応用
ベンフォードの法則は、 1972 年にハル バリアンによって提示されたアイデアに従って、米国だけでなく、フランスを含む他の国でも脱税を検出するために使用されています。

