まさおレポート

当ブログへようこそ。広範囲を記事にしていますので右欄のカテゴリー分類から入ると関連記事へのアクセスに便利です。 

「ビッグデータ黄金時代 世界の繋がりを科学する」でベンフォードの法則を知った

2021-08-20 | 映画 絵画・写真作品含む

photo by wiki

こんな法則があったのかと今更ながら驚く。

(知らなかったのは私だけかもしれないが)ネットフリックスの映画で知ったお話です。

ベンフォードの法則は宇宙に潜む底知れない不思議を感じさせてくれる。実用としては不正会計のチェックに使えるという。誰しもが思い浮かぶ大統領選挙などでは番組の中では使えるかどうかは「感度の問題」でと微妙な表現をしていた。

会計監査、選挙における不正投票の検証にもベンフォードの法則は使われている。

ただし不正のにおいがするかどうかの探りを入れるのには使えるということで裁判などの決定的な証拠には使えない。

そのように割り切って使うと有用だろうなきっと。


営業成績、電話料金、住所、人口、株価等の数値は0~9の数字の組み合わせでできている。先頭の数字(最上位の桁の数字)は1~9のいずれか。

先頭の数字の最も多いのは1で数値の割合は全体の約30%を占める。ベンフォードの法則という。

アメリカの物理学者フランク・ベンフォード(1883~1948)が1938年に分子量、人口、新聞の記事など2万例を超えるサンプルを集めてこの法則にたどり着いた。


使える場合とそうでない場合がある。

仮に1年で倍になる100個の細菌の増殖

1年後には200個になる。

2年後は400個と指数関数的な増加と言う。

100個から200個に増えるまで1年かかるので個数の最初の数字はずっと1のまま。個数の最初の数字が5である期間(500個から600個に増える期間)は約3ヵ月。

だから当てはまらない。


会員番号、人口や川の長さはベンフォードの法則がよくあてはまる。

電話番号のように別のルールによって決められる数の並びや、センター試験の得点のように正規分布に支配されるデータは、ベンフォードの法則に従わない。

値の範囲に制限のないランダムな数の集合も、ベンフォードの法則の適用外。

新聞の記事に登場する数字のように、ベンフォードの法則に従わないいくつかの分布からランダムに集めたデータは、再びベンフォードの法則に従う。


Googleの黎明期に広告モデルを設計したハル・ヴァリアン氏(1947~)は1972年に「ベンフォードの法則を応用すれば、粉飾決算を見抜くことができる」と提唱した。


コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。