
6 月 26 日,日本某主營(yíng)手機(jī)應(yīng)用及游戲軟件開發(fā)的科技企業(yè),因存在財(cái)務(wù)造假嫌疑,被證券交易監(jiān)察委員會(huì)立案調(diào)查,監(jiān)察委員會(huì)認(rèn)為該企業(yè)“公示文件存在虛假記載”,違反了《金融產(chǎn)品交易法》。
類似這樣的大企業(yè)財(cái)務(wù)造假的丑聞屢屢見諸報(bào)端。這些企業(yè)通過(guò)人為修改財(cái)務(wù)數(shù)據(jù),使最終公布的利潤(rùn)數(shù)字低于實(shí)際,從而達(dá)到逃稅目的。而且像新聞中提到的這家企業(yè),他們的財(cái)務(wù)造假行為,據(jù)說(shuō)還得到了某大型審計(jì)公司的幫忙。在這種情況下,想要發(fā)現(xiàn)財(cái)務(wù)造假就會(huì)極其困難。
即使這樣,稅務(wù)機(jī)關(guān)還是成功窺破了企業(yè)的虛假粉飾,真是了不起。這就不得不提到數(shù)學(xué)中的“本福特定律”,它的神奇之處往往很違背直覺。
來(lái)源 | 《數(shù)學(xué)思考法:解析直覺與謊言》
作者 | [日]神永正博
譯者 | 孫慶媛
01
數(shù)學(xué)也可以打擊不法行為
在復(fù)雜的財(cái)務(wù)報(bào)表中,要想識(shí)別出會(huì)計(jì)的不正當(dāng)操作,不是一件很容易的事情。更何況有的情況下,連會(huì)計(jì)師事務(wù)所這種負(fù)責(zé)糾正違法會(huì)計(jì)行為的財(cái)務(wù)審計(jì)機(jī)構(gòu)都可能與企業(yè)沆瀣一氣,結(jié)果導(dǎo)致企業(yè)的財(cái)務(wù)舞弊行為變得更加隱秘,難以被覺察。
針對(duì)這種現(xiàn)象,美國(guó)經(jīng)濟(jì)學(xué)家哈爾·范里安(Hal Ronald Varian)給出了解決方法。他在研究中發(fā)現(xiàn),運(yùn)用數(shù)學(xué)方法可以有效揭露企業(yè)中會(huì)計(jì)的隱秘造假行為。那么,他到底給出了什么樣的靈丹妙藥呢?
對(duì)于一般的非專業(yè)人士來(lái)說(shuō),閱讀企業(yè)的財(cái)務(wù)報(bào)表是一件非常令人頭疼的事情。財(cái)務(wù)報(bào)表中通常包含了各種財(cái)務(wù)數(shù)據(jù),比如產(chǎn)品和服務(wù)價(jià)格就可能有幾百種,這些基本數(shù)據(jù)經(jīng)過(guò)加、減、乘、除又形成了如銷售收入、成本、費(fèi)用類、往來(lái)款項(xiàng)類等數(shù)據(jù)。這些數(shù)字看起來(lái)也是一樣的雜亂無(wú)章,你我這樣的一般人應(yīng)該根本看不出其中有什么規(guī)律可言吧。
但是,哈爾·范里安則明確指出:“這些數(shù)字是具有一定規(guī)律性的。”這個(gè)規(guī)律就是在 20 世紀(jì) 20 年代被發(fā)現(xiàn)的“本福特定律”,也稱為“第一數(shù)字定律”。
當(dāng)時(shí),物理學(xué)家弗蘭克·本福特(Frank Benford)在其研究中發(fā)現(xiàn),人口統(tǒng)計(jì)數(shù)字、計(jì)算機(jī)內(nèi)的文件大小數(shù)字,如 161 974、14 739、1980、1 476 820…首位數(shù)字是“1”的情形非常多,而 2、3、…、9這些數(shù)字排在數(shù)據(jù)首位的比例是在不斷降低的,數(shù)字越大出現(xiàn)的頻率越低(圖 21)。
![]()
在范里安教授的研究中,正是把本福特發(fā)現(xiàn)的數(shù)據(jù)首位數(shù)字的分布規(guī)律,即“本福特定律”應(yīng)用到了揭露企業(yè)財(cái)務(wù)舞弊的行為上。
范里安教授指出,如果企業(yè)的會(huì)計(jì)數(shù)據(jù)經(jīng)過(guò)了人為修改,那么本福特定律應(yīng)該不適用于這些數(shù)據(jù)。利用這一特點(diǎn),審計(jì)人員和監(jiān)管機(jī)構(gòu)可以通過(guò)統(tǒng)計(jì)該財(cái)報(bào)中數(shù)據(jù)首位數(shù)字的分布比例,并計(jì)算其與本福特定律中的比例之間的差值,從而判斷企業(yè)是否有會(huì)計(jì)舞弊行為。
不過(guò),先不要激動(dòng),冷靜下來(lái)再觀察一下圖 21。有沒有覺得哪里不對(duì)勁?比如到底為什么“1”排在數(shù)據(jù)首位的比例會(huì)這么多呢?
其他情況也是如此嗎?
為了解答這個(gè)疑問(wèn),我們需要進(jìn)行一下驗(yàn)證。把整數(shù)中所有的 1位數(shù)和 2 位數(shù)(也就是 1 ~ 99)作為一個(gè)數(shù)據(jù)組,我們來(lái)分析一下 1 ~ 9各自作為數(shù)據(jù)首位有效數(shù)字出現(xiàn)的比例,結(jié)果以圖 22 的形式呈現(xiàn)。
![]()
可以看到,在圖 22 中,每個(gè)數(shù)字排在數(shù)據(jù)首位的比例都是相同的。從 1 到 9,每個(gè)數(shù)字出現(xiàn)在數(shù)據(jù)首位的頻率都是 11 次。仔細(xì)想一想確實(shí)也應(yīng)該如此,如果對(duì)于排在首位的有效數(shù)字的范圍沒有任何限制,那么每個(gè)數(shù)字出現(xiàn)的比例確實(shí)是相等的。因此,在這個(gè)案例中,顯而易見,本福特定律是不成立的。
那么如果我們擴(kuò)大一下數(shù)據(jù)組的數(shù)據(jù)采集范圍呢?情況會(huì)不會(huì)不一樣?例如,我們可以統(tǒng)計(jì)一下整數(shù) 1 ~ 365 的范圍內(nèi)的首位有效數(shù)字的分布情況,結(jié)果如圖 23 所示。可以看到,1 和 2 排在數(shù)據(jù)首位的概率遠(yuǎn)遠(yuǎn)高于其他數(shù)字,3 較之略低,但也大大高于 4 ~ 9 出現(xiàn)的概率。
![]()
這個(gè)分布情況和我們分析 1 ~ 99 的數(shù)據(jù)組時(shí)得出的結(jié)論是截然不同的。原因就在于這次測(cè)試中,我們其實(shí)對(duì)首位有效數(shù)字的范圍進(jìn)行了限制。在這種情形下,就會(huì)出現(xiàn)從某個(gè)數(shù)字開始概率急劇下降的情況(圖 23 中是從數(shù)字 4 開始)。
這個(gè)結(jié)論顯然與本福特定律也是不相符的。在本福特定律中,1 ~ 9 出現(xiàn)在首位有效數(shù)字的概率應(yīng)當(dāng)是逐步平穩(wěn)下降,而在圖 23中,數(shù)字 4 ~ 9 出現(xiàn)的概率是相同的。
從這兩個(gè)例子看,本福特定律也不是在所有情況下都適用。既然這樣,范里安教授為何要選擇這個(gè)定律來(lái)進(jìn)行研究呢?他的決定似乎有點(diǎn)兒令人費(fèi)解。
02
股價(jià)數(shù)字中存在的定律
為了理解范里安教授的研究,我們還需要更多的實(shí)際案例來(lái)驗(yàn)證。正好我手邊有一份股票的收盤價(jià)格數(shù)據(jù),于是就以此為樣本又開始了新一輪的驗(yàn)證分析。如圖 24,我選取的是 2013 年 5 月 24 日在日本東京證券交易所(簡(jiǎn)稱“東證”)一部和東證二部上市交易的3700 只股票(包括指數(shù))的收盤價(jià)作為數(shù)據(jù)組,然后統(tǒng)計(jì)其中首位有效數(shù)字的分布情況,最終繪制了如圖 24 的分布圖。
![]()
分析的結(jié)果令人驚異!我這次只不過(guò)是恰好手頭有這個(gè)數(shù)據(jù),所以抱著試試看的心態(tài)進(jìn)行了分析。但是看到圖 24,我都不禁要懷疑自己的眼睛了。在這個(gè)圖表中,可以很清晰地看到,股票收盤價(jià)的首位有效數(shù)字中,1 ~ 9 出現(xiàn)的頻率隨著數(shù)值的增大而呈逐漸遞減的趨勢(shì),非常接近本福特定律下的分布形態(tài)。
不過(guò),這個(gè)結(jié)果還是有可能會(huì)受到質(zhì)疑,不管從圖像上看這個(gè)分布趨向和本福特定律下的分布有多么相像,但理論上真的和定律相吻合嗎?我自己也抱有這樣的疑問(wèn),所以必須實(shí)際驗(yàn)證一下。但問(wèn)題來(lái)了,如何才能驗(yàn)證這個(gè)現(xiàn)象是否符合本福特定律呢?有哪些科學(xué)合理的方法嗎?
答案是進(jìn)行數(shù)字對(duì)比。將根據(jù)本福特定律預(yù)測(cè)的首位數(shù)字的分布,與實(shí)際案例中統(tǒng)計(jì)得到的首位數(shù)字的分布一一對(duì)比,然后從統(tǒng)計(jì)學(xué)的角度,分析兩者的差值是否在可容許的范圍內(nèi),最終就可以做出判斷了。
將根據(jù)本福特定律計(jì)算得出的首位數(shù)字的分布(以下稱為“理論值”,計(jì)算方法將在下文中詳細(xì)說(shuō)明),與實(shí)際的股票價(jià)格數(shù)據(jù)中首位數(shù)字的分布相對(duì)比,就得出了如圖 25 的柱狀圖。
![]()
這張圖也反映出,兩種數(shù)據(jù)是無(wú)限接近的。雖然存在些微的差距,但是這些差值是否大到超出了可容許的范疇呢?要判斷這一點(diǎn),一般可以采用統(tǒng)計(jì)學(xué)中的“統(tǒng)計(jì)檢驗(yàn)”的方法。
我馬上使用統(tǒng)計(jì)檢驗(yàn)的方式進(jìn)行了驗(yàn)證,結(jié)果顯示“不能否定股價(jià)數(shù)據(jù)中首位有效數(shù)字的分布不適用于本福特定律”。
這個(gè)結(jié)論可能有點(diǎn)兒拗口。一般人可能覺得直接說(shuō)“適用于定律”不就好了,為什么還要這么麻煩呢?其實(shí)這是統(tǒng)計(jì)學(xué)中的一個(gè)原則。統(tǒng)計(jì)學(xué)本就是用來(lái)處理那些局部的、偶然發(fā)生的現(xiàn)象的,因此,一般不能直接給出諸如“一定是這樣的”等絕對(duì)性論調(diào)。在這次的檢驗(yàn)結(jié)果中,雖然使用的措辭較為模糊,但是實(shí)質(zhì)上是肯定了兩個(gè)數(shù)據(jù)對(duì)比的結(jié)果吻合度非常高。
雖然無(wú)法做出完全與定律一致的結(jié)論,但是這種高度一致的關(guān)系已經(jīng)足夠令人感到驚嘆。在現(xiàn)實(shí)中,我們應(yīng)該還能夠挖掘出其他更多的適用本福特定律的案例。
03
素?cái)?shù)中的本福特定律
素?cái)?shù)是只能被 1 或者自己整除的整數(shù)。素?cái)?shù)有無(wú)窮多個(gè),100萬(wàn)以下的數(shù)字中有 78 498 個(gè)素?cái)?shù)。這一次,我們使用這些素?cái)?shù)作為一個(gè)數(shù)據(jù)組,同樣對(duì)首位有效數(shù)字的分布進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖 26。
![]()
從圖 26 中確實(shí)可以看到,數(shù)字“1”排在首位的頻率是最高的,但是 1 ~ 9 每個(gè)數(shù)字排在首位的頻率相差不是很大,而且可以說(shuō)是更接近于平均分布,而不是本福特定律中的遞減趨勢(shì)。
這個(gè)結(jié)果是不是意味著本福特定律只是適用于極少數(shù)情況的一種規(guī)律呢?又或者根本就是本福特教授的一個(gè)錯(cuò)覺?
數(shù)學(xué)家盧克(B. Luque)和拉卡薩(L. Lacasa)在其 2009 年共同發(fā)表的論文《素?cái)?shù)的首位有效數(shù)字的分布》11 中,對(duì)此問(wèn)題進(jìn)行了研究。他們?cè)谡撐闹刑岢觯梢詫⒈靖L囟山忉尀槭且粋€(gè)具有普遍適用性的定律的一種特定情形,而素?cái)?shù)的首位數(shù)字的分布,就可以用這個(gè)更為普遍的本福特定律來(lái)說(shuō)明。
這個(gè)說(shuō)法有點(diǎn)晦澀,換句話說(shuō),就是我們可以把本福特定律區(qū)分成“一般本福特定律”和“古典本福特定律”兩種不同類型。那么,怎樣去理解這兩個(gè)定律的不同之處呢?
盧克和拉卡薩認(rèn)為,古典本福特定律更接近于一個(gè)反比例函數(shù)曲線,如圖 27 所示。他們?cè)谡撐闹兄赋隽藘烧咧g的對(duì)應(yīng)關(guān)系:“首位數(shù)字是 1 的概率等于圖中坐標(biāo) 1 到 2 之間的面積;首位數(shù)字是 2 的概率,則等于坐標(biāo) 2 到 3 之間的面積……”通過(guò)調(diào)整設(shè)置,使全部的面積之和恰好等于 100%。
![]()
而與此相對(duì),在一般本福特定律中,當(dāng)反比例函數(shù)曲線變?yōu)?/p>
時(shí),上述對(duì)應(yīng)關(guān)系同樣成立。其中,當(dāng) a =1時(shí),就是古典本福特定律。圖 28 形象地說(shuō)明了兩個(gè)定律之間的關(guān)系。
![]()
![]()
![]()
29 則描述了當(dāng) a 的值發(fā)生變化時(shí),分布曲線的相應(yīng)變化。可以看到,當(dāng) a 的值逐漸減小時(shí),曲線是逐漸趨于平緩的。圖 30 顯示了 a = 0.04 時(shí)的本福特定律。圖中坐標(biāo)數(shù)字對(duì)應(yīng)的長(zhǎng)方形的面積,就是該數(shù)字作為首位數(shù)字的概率。
根據(jù)這個(gè)理論,盧克和拉卡薩對(duì)更大范圍的素?cái)?shù)的首位數(shù)字的分布頻率進(jìn)行了統(tǒng)計(jì)。圖 31 顯示了該統(tǒng)計(jì)結(jié)果,以圖(a)為例,黑色柱狀圖表示的是10^8以內(nèi)的 5 761 455 個(gè)素?cái)?shù)的首位數(shù)字的分布頻率。與之并列的白色柱狀圖,表示的是一般本福特定律(a = 0.0583)的理論值。很明顯,這兩個(gè)數(shù)據(jù)具有驚人的一致性。
![]()
將素?cái)?shù)的范圍再進(jìn)行擴(kuò)大,也還是能夠找到與之對(duì)應(yīng)的一般本福 特 定 律。 圖(b)中,素?cái)?shù)的范圍擴(kuò)大到了10^9,相對(duì)應(yīng)地,a = 0.0513 時(shí)的一般本福特定律與之一致;圖(c)中素?cái)?shù)的范圍是10^10,對(duì)應(yīng) a = 0.0458;圖(d)中素?cái)?shù)的范圍是10^11,對(duì)應(yīng) a =0.0414。可以發(fā)現(xiàn),在這四種情況下,a 的值都有略微的差異,但最終與相應(yīng)的素?cái)?shù)首位數(shù)字的分布頻率都非常吻合。
除了使用圖形對(duì)比以外,在盧克和拉卡薩的論文中,同樣采用了上文中我們?cè)趯?duì)比股價(jià)首位數(shù)字分布時(shí)使用的統(tǒng)計(jì)檢驗(yàn)方法,對(duì)上述四種情形進(jìn)行了檢驗(yàn)。結(jié)果沒有任何疑義地顯示出了高度一致性。
自范里安教授初次提出可以將本福特定律應(yīng)用于揭露財(cái)務(wù)舞弊行為之后,會(huì)計(jì)學(xué)教授馬克·尼格里尼(Mark Nigrini)在 20 世紀(jì) 90年代從統(tǒng)計(jì)學(xué)的角度說(shuō)明了如何利用本福特定律揭露會(huì)計(jì)的造假、欺詐和逃稅等財(cái)務(wù)舞弊行為,并因此名揚(yáng)天下。迄今為止,研究者們已經(jīng)使用本福特定律進(jìn)行了許多這方面的實(shí)踐應(yīng)用,這些都讓人不禁感嘆,當(dāng)初范里安教授真的是獨(dú)具慧眼!
01
![]()
《數(shù)學(xué)思考法:解析直覺與謊言》
作者: [日]神永正博
譯者:孫慶媛
《簡(jiǎn)單微積分》作者神永正博經(jīng)典著作!
分析信息真正價(jià)值 / 拆解轉(zhuǎn)化復(fù)雜問(wèn)題 / 破除思維定式陷阱。
通過(guò)用數(shù)學(xué)思維解析實(shí)際生活案例、公眾認(rèn)知中的錯(cuò)誤直覺、數(shù)學(xué)經(jīng)典名題等方式,由淺入深地傳授了分析數(shù)據(jù)信息價(jià)值、辨別謊言、拆解轉(zhuǎn)化復(fù)雜問(wèn)題、抓住事物本質(zhì)的思考之法,同時(shí)講解了相關(guān)的數(shù)學(xué)知識(shí)與理論,可以有效提高理性思維、判斷與解決問(wèn)題能力。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.