在現實生活的壹堆數據中,以1為第壹個數字的數字出現的概率約占總數的30%,接近期望值1/9的三倍。壹般來說,數字越大,前幾位的數字出現的概率越低。可以用來檢查各種數據是否造假。
十進制中第壹位數字出現的概率(%),小數點後壹位數字):
1 30.1%
2 17.6%
3 12.5%
4 9.7%
5 7.9%
6 6.7%
7 5.8%
8 5.1%
9 4.6%
證明如下:假設我們有壹個隨機變量為x的大樣本空間?6?9,x?6?0,...,x_{n},其中n足夠大。x?6?9,x?6?0的進化規律,...,x_{n}可以用上面提到的指數方程來模擬。
如果在指數律的解的兩邊取以10為底的對數,就會得到lg x(t)與時間t成正比的結論。
如果問變量x在80到90之間的概率,只需要求出x(t=80)時t的解t。6?9、和x(t=90) t時t的解?6?0.那麽總時間t的比值(t?6?0-t?6?9)/T是x在80到90之間的概率。
那麽如果我們問第壹個數字是8的概率呢?得益於duanx和zhuww的思路,我們只需要關心lg x的小數部分在lg 8和lg 9之間的長度。
這是因為對數lg x約10的整數部分決定了X是多少位數(整數部分是1,表示是兩個數;整數部分是2,表示3位數。lg x的小數部分決定了X的每個數字是什麽。
如果畫出lg x關於時間t的小數部分的圖像,實際上相當於把lg x的圖像折疊到[lg 0,lg 10]的區間。這樣我們就不需要關心時間t有多大了,因為時間軸也是折疊的。那麽第壹位數字為d的概率為[LG(d+1)-LG(d)]/(LG 10-LG 1)= LG(d+1)-LG(d)。
以上結果是本福德發現的規律。