|
发表于 2020-6-2 19:58:50
|
显示全部楼层
先科普一下斐波那契数列:常见的斐波那契数列是:1、1、2、3、5、8、13、21、34、55、89……
数列特征是前2项为1,从第3项后每一项都等于前2项之和。
该数列神奇的地方是n足够大之后,前一项与后一项的比接近黄金分割数0.618,该性质被用于模拟计算股票从低点到高点的差值(或相反),取得了很好的效果。当然也可以用于模拟很多自然现象。 说完题目中的数列之后,回到问题本身。
在统计学中也有一个神奇的“本福特法则”,可以用来识别数据是人工伪造的还是自然生成的。
2001年,美国最大的能源交易商安然公司宣布破产,在世界上引起轩然大波。在安然公司的丑闻冒出之前,就已经有人在互联网上指出安然公司公布的财务数据疑似作假,因为不符合统计学中的“本福特法则”。
那么问题来了,什么样的法则这么神奇?居然能够看出财务数据造假!
通俗的来说,“本福特法则”告诉我们:自然生成的数据中,首位数字从1到9出现概率依次递减。其中1出现最多为30.1%,2为17.6%,3为12.5%,依次递减,9的概率是4.6%。
(图:首位数字出现的概率直方图)
这个法则颠覆了我们的认识!
人们通常觉得这9个数字出现的概率是相同的,或者5、6出现的概率更高,所以,人造数据常常具有这两种特征中的一种。但人们的直觉恰好违背了统计学的规律!
在数学上,这个法则有着精确的表达式,并且已经被严格证明,但证明的过程实在太数学了,奥数君在这里就只给出一种直观的解释,对严格的数学证明感兴趣的人可以自行搜索论文“A Statistical Derivation of the Significant-Digit Law.”
直观的解释是这样的:对于自然出现的数字来说,数字的增加会越来越困难。从个位数开始增加,刚出现的多位数是以1起首,直到9起首的数出现之前,必然会经过一堆以2,3,4,…,8起首的数,由于增加是越来越困难的,因此,数字越小,在首位出现的概率越大。
尺有所长,寸有所短,再牛的法则都有其适用范围。 “本福特法则”在应用前需满足以下两条:
一是数据的数量级跨度必须足够大。比如人口的年龄分布如果按年计算就不服从该法则,因为数量级跨度太小,但如果按分钟计算,“本福特法则”就绝对适用。
二是数据应当是自然生成的,没有人为规则限定。比如手机号码、身份证号等就不适用该法则。
值得注意的是,即便更改数字的计量单位,比如把人民币换为美元,或者把亩换算为平方米,“本福特法则”也依然适用,这一点在数学上被称为尺度不变性。
因此,在现实生活中,只要面对大量数据,我们就可以应用“本福特法则”判断数据是否存在造假嫌疑。
在涉及经费收支、货物进出库、选举票数统计等方面,“本福特法则”已经成为辨别真伪的照妖镜,比如有学者就根据这一法则发现了2004年美国总统选举中佛罗里达州的投票欺诈行为。
学会这个法则,是不是有一种锤子在手,看啥都是钉子的感觉?赶快找点数据验证一下吧。
这篇文章原本发在我的微信公众号里边的。公众号叫“每天3道奥数题”(tiantianaoshu),是教家长辅导奥数的,每天给出小学奥数题及详细解答,也会隔三岔五给出数学知识科普,欢迎关注。 |
|