正文

《大数据时代》全数据模式,样本=总体(4)

大数据时代 作者:(英)维克托·迈尔-舍恩伯格


同理,因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。是大数据让我们发现了相扑中的非法操纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分 DNA。它让我们能清楚分析微观层面的情况。

当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择。

社会科学是被“样本 =总体”撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析经验数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态,也就不用担心在做研究和调查问卷时存在的偏见 ①了。现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过 twitter信息表现出的感情。更重要的是,我们现在也不再依赖抽样调查了。

艾伯特 -拉斯洛·巴拉巴西( Albert-László Barabási),和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本 =总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。

有趣的是,与小规模的研究相比,这个团队发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除开来,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。 ③这个研究结果非常重要也非常的出人意料。谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人联系的人呢?这说明一般来说无论是一个集体还是一个社会,多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。

大数据洞察

我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号