? 這是通識選修課《經濟研究中的計算方法》第二講中出現的案例。
? 本福特定律是壹個非典型數字統計定律,它由來已久。雖未被廣義的證明,卻有著重要的應用。最直接的作用就是,它可以幫助偵破“數據造假”,在各個領域。
(壹)本福特定律
? 本福特(Benford)定律,又稱為第壹數字定律。它是數字統計的壹種內在規律,指所有自然隨機變量,只要樣本空間足夠大,每壹樣本首位數字為1至9各數字的概率在壹定範圍內具有穩定性(見圖)。即以1開首的樣本占樣本空間的0.3,以2開首的樣本占樣本空間0.17-0.19,而以9或8開首的樣本始終只占0.05左右。
? 世界上千千萬萬的數據的開頭數字是1到9中的任何壹個數字,而且每個數字打頭的概率本應該差不多,但如果妳統計的數據足夠多,就會驚訝地發現,打頭數字是1的數據最多。?
? 1935年,美國的壹位叫做富蘭克?本福特(Frank Benford, 1883–1948)的工程師在圖書館翻閱對數表時發現,對數表的頭幾頁比後面的頁更臟壹些,這說明頭幾頁在平時被更多的人翻閱。再進壹步研究後發現,只要數據的樣本足夠多,數據中以1為開頭的數字出現的頻率並不是1/9,而是30.1%。而以2為首的數字出現的頻率是17.6%,往後出現頻率依次減少,9的出現頻率最低,只有4.6%。?
? 本福特開始對其它數字進行調查,發現各種完全不相同的數據,均有這個定律的身影。比如,約三分之壹的住宅號碼是以1作為其首個數字的。許多幾乎沒有任何***通性的領域也有相同的情況:比如道瓊斯指數的歷史數據、個人電腦中文件儲存的大小排列順序、世界主要河流的長度、報紙頭版頭條的數字及其它許多事情,都是符合的。
? 1961年,壹位美國科學家提出,本福特定律其實是數字累加造成的現象,即使沒有單位的數字。比如,假設股票市場上的指數壹開始是1000點,並以每年10%的程度上升,那麽要用7年多時間,這個指數才能從1000點上升到2000點的水平;而由2000點上升到3000點只需要4年多時間;但是,如果要讓指數從10000點上升到20000點,還需要等7年多的時間。因此我們看到,以1為開頭的指數數據比以其他數字打頭的指數數據要高很多。
(二)本福特
? 本福特本來是壹個美國電氣工程師,也是壹名物理學家,在美國通用電氣公司(GE)實驗室裏工作多年直到退休。這位工程師在50多歲的時候,迷上了壹個與數字有關的課題。課題得到的結論便是現在我們所說的“本福特定律”。
? 事實上,本福特定律的最早發現者並不是本福特,而是美國天文學家西蒙?紐康(Simon Newcomb,1835.3.10-1909.7.11)。紐康於1877年成為美國航海天文歷編制局局長,並組織同行們重新計算所有主要的天文常數,繁雜的天文計算經常需要用到對數表,但那個時代沒有互聯網,沒有阿裏雲,對數表被印成書本,存於圖書館。細心的紐康發現壹個奇怪的現象:對數表中包含以1開頭的數的那幾頁比其他頁破爛得多,似乎表明計算所用的數值中,首位數是1的概率更高,因此他在1881年發表了壹篇文章提到並分析了這個現象,但沒有引起人們的註意,直到54年之後的1935年,本福特又重新發現這個現象。
? 說來令人奇怪,科學定律的發現有時候來自於壹些毫不起眼,小得不能再小的現象,本福特的發現便是如此:以1開頭的數字比較多,這也算是壹個定律嗎?他發現這種現象不僅僅存在於對數表中,也存在於其它多種數據中,於是,他檢查了大量數據而證實了這點。
? 本福特對此疑問的觀察要比紐康更深入壹些。他開始對其它數字進行調查,發現各個完全不相同的數據,比如人口、死亡率、物理和化學常數、棒球統計表、半衰期放射性同位數、物理書中的答案、素數數字和斐波納契數列數字中均有“第壹數字定律”現象的出現。換句話說就是只要是由度量單位制獲得的數據都符合這壹定律。另壹方面,任意獲得的和受限數據通常都不符合本福特定律。比如,彩票數字、電話號碼、汽油價格、日期和壹組人的體重或者身高數據是比較隨意的,或者是任意指定的,並不是由度量單位制獲得的。
? 紐康發現這個定律的時間比本福特早了50多年,但很明顯,後者是個更有心的人。否則就該叫做紐康定律了。
(三)本福特定律靠得住嗎?
? 第壹數字定律描述的是自然數1到9的使用頻率,公式為F(d) = log[1 + (1/d)](d為自然數)。人們分析後發現,由度量單位制獲得的自然累加數據都符合第壹數字定律,而任意獲得的和受限數據通常都不符合。但人的身高、體重數據不符合,怎麽解釋?雖然定律在許多方面都得到了應用,但對於這類現象,人們依舊是迷惑不解。
? 再有就是怎麽用數學方法證明定律,至今沒有滿意的結果。這是最大的問題,也是這個名頭很大,叫做第壹數字定律的本福特定律,至今無法進入數學或者統計學教科書的原因。
? 此定律的證明有不止壹種,但都不嚴格。下面這個,雖然嚴格,但明顯加了條件。
? 證明如下:假設我們有壹個很大的樣本空間,有隨機變量x?,x?,...,x_{n},這裏n足夠大。x?,x?,...,x_{n}的演化規律可以用指數方程 來模擬。
? 如果我們對於指數定律的解兩邊取以10為底的對數,我們就會得到lg x(t)正比於時間t的結論。
? 如果我們問變量x介於80-90的概率有多大,我們只需要求出x(t=80)時t的解t?,和x(t=90)時t的解t?. 那麽占總時間T的比率(t?-t?)/T即為x介於80-90的概率。
? 那麽如果我們問首位數字是8的概率呢?多虧了duanx和zhuww的想法,我們只需要關心lg x的小數部分介於lg 8和lg 9之間的長度為多少即可。
? 這是由於關於10的對數lg x的整數部分決定著x是幾位數(整數部分是1,說明是兩位數;整數部分是2,說明是3位數……)。而lg x的小數部分則決定著x的每位數字是什麽。
? 如果畫壹個lg x的小數部分關於時間t的圖像,實際上就相當於把lg x的圖像折疊到[lg 0,lg 10]區間。這樣,我們就不需要關心時間T有多大,因為時間軸也被折疊了。那麽首位數字為D的概率即為 [lg(D+1)-lg(D)]/(lg 10-lg 1)=lg(D+1)-lg(D)。
? 註意:上面的指數方程 是下面這個微分方程 的解。這個方程的物理含義是單位時間內,x(t)的變化量正比於x(t)在時刻t的值,比例系數為壹常數k。
? 現實世界中,很多演化過程都可以用上邊這個方程去近似,尤其是實在演化的初期沒有達到飽和狀態的時候。在維基百科上,我們可以找到很多這樣的例子,比如關於指數衰減,指數增長,以及化學中的速率方程的降解部分。
(四)本福特定律的應用
? 不管如何詮釋本福德定律,它是壹個客觀存在,並且是有用的。由於大多數財務方面的數據,都滿足本福德定律,因此,它可以用作檢查財務數據是否造假。
? 美國華盛頓州偵破過壹個當時最大的投資詐騙案,金額高達1億美元。詐騙主謀凱文·勞倫斯及其同夥,以創辦高技術含量的連鎖健身俱樂部為名,向5000多個投資者籌集了大量資金。然後,他們挪用公款用作自身享樂,為他們自己買豪宅、豪華汽車、珠寶等。為了掩飾他們的不法行為,他們將資金在海外公司和銀行間進行頻繁轉賬,並且人為做假賬,給投資者造成生意興隆的錯覺。所幸當時有壹位會計師(Darrell Dorrell )感覺不對頭,他將70000多個與支票和匯款有關的數據收集起來,將這些數據首位數字發生的頻率與本福德定律相比較,發現這些數據通過不了第壹數字法則的檢驗。最後經過了3年的司法調查,終於拆穿了這個投資騙局,2002年,勞倫斯被判20年牢獄。
? 2001年,美國最大的能源交易商安然公司宣布破產,並傳出公司高層管理人員涉嫌做假賬的傳聞。據說安然高層改動過財務數據,因而他們所公布的2001-2002年每股盈利數據不符合本福特定律。2001年12月,這個全球500強中排名第七的公司向美國證監會承認會計造假。安然事件引起公眾對會計數據造假的關註,直接導致了2002年8月《薩班斯法案》的誕生。
? 美國稅務局也利用本福德規則來檢驗報稅表,揪出逃稅漏稅行為,據說有人曾經用此定律來檢驗美國前總統克林頓10年內的報稅數據,不過沒有發現破綻。
? 此外,本福德定律也被用於股票市場分析、檢驗選舉投票欺詐行為等。
? 很顯然,本福特定律是壹個打擊數據造假的大殺器。當然要註意它的應用條件:
1.數據不能是規律排序的;
2.數據不能經過人為設置;
3.數據量要足夠大。有人說3000以上,不知有無依據;
4.它不是永遠對,這是目前的未解之謎;
5.它是否準確,也有個標準問題,因為它更接近蒙特卡洛算法。