大数据时代 - 《大数据时代》小数据时代的随机采样，最少的数据获得最多的信息（3）

《大数据时代》小数据时代的随机采样，最少的数据获得最多的信息（3）

认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本，我们可以用较少的花费做出高精准度的推断。因此，政府每年都可以用随机采样的方法进行小规模的人口普查，而不是只能每十年进行一次。事实上，政府也这样做了。例如，除了十年一次的人口大普查，美国人口普查局每年都会用随机采样的方法对经济和人口进行 200多次小规模的调查。当收集和分析数据都不容易时，随机采样就成为应对信息过量的办法。

很快，随机采样就不仅应用于公共部门和人口普查了。在商业领域，随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易，花费也更少。以前，全面的质量监管要求对生产出来的每个产品进行检查，而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说，随机采样让大数据问题变得更加切实可行。同理，它将客户调查引进了零售行业，将焦点讨论引进了政治界，也将许多人文问题变成了社会科学问题。

随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但这只是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。

最近，以固定电话用户为基础进行投票民调就面临了这样的问题，采样缺乏随机性，因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户，自然就得不到正确的预测。 2008年在奥巴马与麦凯恩之间进行的美国总统大选中，盖洛普咨询公司、皮尤研究中心（Pew）、美国广播公司和华盛顿邮报这些主要的民调组织都发现，如果他们不把移动用户考虑进来，民意测试结果就会出现三个点的偏差，而一旦考虑进来，偏差就只有一个点。鉴于这次大选的票数差距极其微弱，这已经是非常大的偏差了。

更糟糕的是，随机采样不适合考察子类别的情况。因为一旦继续细分，随机采样结果的错误率会大大增加。这很容易理解。倘若你有一份随机采样的调查结果，是关于 1 000个人在下一次竞选中的投票意向。如果采样时足够随机，这份调查的结果就有可能在 3%的误差范围内显示全民的意向。但是如果这个 3%左右的误差本来就是不确定的，却又把这个调查结果根据性别、地域和收入进行细分，结果是不是越来越不准确呢？用这些细分过后的结果来表现全民的意愿，是否合适呢？

你设想一下，一个对 1 000个人进行的调查，如果要细分到“东北部的富裕女性”，调查的人数就远远少于 1 000人了。即使是完全随机的调查，倘若只用了几十个人来预测整个东北部富裕女性选民的意愿，还是不可能得到精确结果啊！而且，一旦采样过程中存在任何偏见，在细分领域所做的预测就会大错特错。