【心理大数据】数据本身不会说谎,但说谎者需要数据

如今,缺少统计学和概率论的现代命运观已经是不可想象的了。在这种命运观里,隐含着如下思维逻辑:“既然世界注定是不确定的,而人类必须在这一前提下做出选择,那么错误就是不可避免的。

既然错误不可避免,那么如果我们按照某一特定的方式行动,最好能知道犯错误的几率有多大。这样,我们就能找出相应的对策,从而减少犯错的次数,或者减少犯错带来的损失。

表面上看,这一逻辑很正确,很强大,以至于科学史家伊恩·哈金(IanHacking)在考察了统计学的发展轨迹后声称,那些默默无闻的统计学家已经改变了世界——不是通过发现新的事实或技术,而是改变了人类推理和实验的方法,以及我们对这个世界的观念的形成方式。

但是,这个建立在归纳推理上的思维方式并非没有问题。一个不知道什么是错误,哪里会犯错的人,怎么可能减少错误,或者降低损失?就像哈金在另一个场合下所说的那样,归纳本身就是冒险。因为,确定的过去和现在,无法保证未来同样确定。

再说了,就算这种思维方式像射向未来的光柱那样笔直,在各种“引力场”的作用下,也难保它不会弯曲。事实上,时时刻刻,我们都需要用信念,而不是推理,将过去与未来紧紧地绑在一起。

统计学家戴维·穆尔(D.S.Moore),美国统计学会的常务委员、普度大学的统计学教授在《统计学的世界》里开宗明义:尽管数字很重要,但是统计学绝非纯粹的计算,而属于文科的领域。

因为它跟文学、历史、政治学分析和社会学研究一样,都带着主观的性质——其思维方式“都是用不确定的经验数据做推论”。

著名的统计学家C.R.劳(C.R.Rao)是统计学的坚定捍卫者。他说:“在理性的基础上,一切判断都是统计学。”他还说:“对统计学的一知半解往往造成不必要的上当受骗,对统计学的一概排斥常常造成不必要的愚昧无知。”

但在《统计与真理》一书中他也同意,在一定意义上,统计学是一门运用数字讲故事的艺术。就效力而言,统计学与概率论各有所长。概率论者像预言家,他们往往以“研究随机性或不确定性的数学”的面目出现。统计学则不同,它更像历史学,标榜的是数据的收集、测量、归纳与分析。

当然,就像通常所见的那样,历史学家最爱扮演预言家的角色——骨子里,现代人的思维总是统计学与概率论的合体。

如果说穆尔一语道破了统计学内在的价值取向。但是有意无意地,他还是忽视了这种倾向的主观程度。我曾经谈到过,统计学从诞生之初就有天然的政治属性。这几乎是这门学问的“原罪”。

如今,在经历了数百年的变迁后,它真的已经摆脱了“政治算术”这个不名誉的称号了吗?穆尔没有回答。即使权力不再是统计学的致命伤,政治仍是扭曲它的引力场。

就以“普查”(census)为例吧。

在统计学中,这是最强调准确,也最耗财费力的方法。显然,只有国家或政府这一类政治权力才可能实施它。然而正因为权力的需求和介入,所谓普查总会带有政治性的偏差。比如美国人口普查局宣称,按照联邦宪法的规定,他们至少每十年进行一次的全国人口普查,目的只是“提供可靠的人口统计数据”。

同时他们也不得不承认,每次统计总有一些人给“漏掉”了,且不是小数目。废奴之前的普查不必说,那时候一个奴隶只能按3/5个人计算。即便到了上世纪下半叶,一次普查中漏掉几百万人口的事情也属常态。1990年,他们漏掉的人口大概有447万人。2000年的人口普查曾被当时的美国人称做历史上和平年代最大的一次全民动员,漏计的人口至少也有300多万之多。

要知道,在这漏掉的数目里,还不包括上千万的非法移民。哪些人被漏掉了?答案显然是政治性的。黑人漏掉的最多,还有其它少数族裔。其次是居无定所的流浪者,以及失业人士。漏掉了这些人,有政治上的影响吗?答案同样分明。因为宪法规定,美国众议院的席位,总统大选中的选举人票数,还有数以千亿计的联邦救济金,都要与人口普查数据挂钩。

在巨大的价值面前,统计学怎么做到真正的客观呢?

难怪奥巴马打算把级别低微的人口普查局从商务部里独立出来,以减少各种政治因素的干扰——而这一打算迄今看不到前景。政治当然不是影响统计学的惟一因素。利益、虚荣、心理和意识形态,只要对未来的期许足够强大,这些东西都可以让统计学发生变化。在它们的威逼利诱下,如今的统计学在真实与谎言的灰色地带上走钢丝,一不小心就会滑向虚无。

政治家格罗夫纳(C.H.Grosvenor)说:“数据本身不会说谎,但说谎者需要数据。”从数据着手,乃是操纵统计学的捷径。手段说起来无非三种:修饰数据、加工数据和伪造数据。几年前,《纽约时报》的两位科学记者合著了一本书,揭露的就是那些与数据打交道最多的人群——科学家。他们本应是统计学的卫士,却不同程度地成了它的叛徒。那本书就叫《背叛真理的人们》。在书中作者一口气列举了好些个我们熟悉的名字:伽利略、牛顿、道尔顿、孟德尔等等。

这些人在他们的科学生涯中都干过同一类事情:用数据撒谎。他们盗用他人已有的数据,篡改自己的实验数据,编造精确度高到超越当时测量技术水平的数据,添加一些高度拟合的、无法重复再现的数据。总之,用作者的话讲,他们把“高尚的原则与低劣的实践”结合到了令人瞠目的地步。就像我引述的那样,似乎只有统计学家才真正理解统计学的局限与危险。

比如萨尔斯伯格(David Salsburg),他也是一位有名的统计学家。其主要观点体现在《女士品茶》一书的副标题上——“20世纪统计怎样变革了科学”。然而耐人寻味的是,他在这本书的结尾却写了一段大意如此的句子:“在我们进入21世纪的时候,统计革命已经取得了胜利。

除了极少数角落,统计学已经征服了科学领域几乎所有的决定论观点,其看待事物的方式甚至成了西方通俗文化的一部分。

然而,统计学就是“一尊泥菩萨”。它洋洋自得地立在那里,并不知道在未来的某个隐蔽的角落,另一场革命正在孕育。而发起那场革命的男男女女,可能正生活在我们中间。”

 

心灵治愈课
在线咨询