大数据（3.0升级版精装） - 【新版自序】数据可以治国，还可以强国

今年春节期间，出版社告诉我，作为中国大数据领域的开山之作，《大数据》很受欢迎，他们希望满足市场的需求，推出第三个版本，嘱咐我写点东西。

之所以受到欢迎，可能是因为独树一帜。一提到大数据，很多人的第一反应，是数据在商业领域中的作用，所津津乐道的，也是精准营销，即通过数据分析增强对用户的洞察、扩大营销收入。但本书所强调的，却是“数据不仅可以治国，还可以强国”。

数据治国，是指要凭借对数据的有效收集、处理和分析来治理国家，决定国家的大政方针和具体政策。

从定义看，数据是对客观世界进行量化和记录的结果。量化，是人类进行科学研究最根本的手段，就此而言，数据治国也可以理解为“用定量分析、实证研究的科学方法来治理国家”。此外，数据表示的是过去，关注、表达的却是未来。数据之中蕴藏着社会发展的规律，“数据治国”的提法，也暗含着“人类可以更好地把握未来”之意。

回顾人类的历史，任何一个国家的治理，都需要参照数据，但由于信息技术的进步、记录手段的普及，物理世界的状态、个人的社会行为得到了前所未有的记录，这种记录的粒度越来越细、维度越来越多、频度越来越密，形成了“大数据”。今天的数据治国，含义远远超出了“参照数据”。

例如，当前国人关心的头号问题，莫过于空气质量。要解决好这个问题，从环境的监测、传感器的安装，到空气标准的设立、污染原因的分析，再到高污染、高能耗、低产值传统产业的转型，和智能电网、智能电表的使用和普及，整个治理链条都贯穿了数据。又例如交通拥堵，如今很多城市，立交桥高达三四层、地铁线也在快速扩张，却赶不上车辆增加的速度，在资源增长、空间有限的情况下，唯一的出路，是用好大数据，对城市的状态进行实时的分析和预测，不断优化现有资源的使用情况。还有当下智慧城市的建设，大数据的作用可谓重中之重。

今天的政府，无论是东方、西方，都有人在不断尝试，试图把“凭借数据来治理社会”的模式推到极致。本书第七章“全国隐私风波”重点阐述了十几年前美国各方力量围绕“万维信息触角计划”（TIA）产生的纠结和较量。2002年，在国防部长拉姆斯菲尔德、海军中将波因德克斯特的主导下，美国国防部高级项目研究所（DARPA）试图建立一个超级数据库，把全社会每一个人的基本资料、信用卡交易信息、医疗保险记录、出入境记录、航空和酒店信息、电子邮件、电话记录、网络搜索记录等等数据都整合到一起，然后通过数据挖掘和监控，在大量的信息当中发现“信号”，实现有效的社会治理和管控。这个计划，因为可能侵犯公民的隐私，在美国国会不断受阻，但美国国防部却屡次变换名目、暗中推动项目进展。这段历史，堪称2013年“斯诺登事件”的前传，因为后来大面积曝光，最终震惊世界。

西方不亮东方亮。这期间，新加坡的国防部长Peter Ho在美国访问，他获知万维信息触角计划之后，大为赞赏。不久后，该计划在美国触礁流产，波因德克斯特被迫辞职，新加坡却重金引进了这个项目组的一批人员，并聘波因德克斯特为国防部顾问，视为上宾。在波因德克斯特的指导下，新加坡快速建立了一套万维信息触角，命名为“风险评估和全景扫描”（RAHS）。

RAHS最初的目的，是通过全社会的数据联通和挖掘，在错综复杂的社会现象中发现恐怖袭击、流行病疫情等突发事件的“信号”，达到未雨绸缪、有效治理的目的。之后，由于行之有效，新加坡政府将系统不断扩大，推广到经济、文化、社会管理的种种领域。房屋管理局用它来了解人们对于住房体系的批评和期待，人口部门通过它掌握大众的生育态度变化，旅游部门用它来预测各地游客数量的周期，食品部门通过它决策是否应该减少对进口食品的依赖等等。从这个角度说，新加坡是数据治国的一个实验室，它不仅将大数据用于情报和反恐，还用于构建和谐社会。

在中国，特别要强调的是，数据治国不是“数字治国”。一些官员一谈起辖区人口面积、GDP增长幅度、项目投资多少、惠及领域若干、利税增加几何都有“数”在胸，还特别喜欢用“三项原则”、“五个重点”、“八项规定”等等数字范式对工作进行总结，各项工作的考核也都与数据挂钩，大有唯“数据”盛行之势。这不是不好，但这些都是孤立的、静态的数字，并不是“数据治国”的真义。大数据时代，数据治国更关注的是动态的数据、系统化的数据，以不间断“流”的形式存在的、成片的、活的数据，它们应该成为公共决策的资源为政府和社会所广泛使用。归根结底，公共决策最重要的依据将是系统的、成片的、动态的数据流，而不是个人经验或长官意志，过去深入群众、实地考察的工作方法虽仍然有效，但对社会治理而言，系统采集的数据、科学分析的结果更为重要。

我认为，数据不仅可以治国，还可以强国。其中的原因，是因为数据正在成为各行各业最重要的创新资源。

以农业为例，来自天气、土壤和农作物的数据，可以实现自动化的灌溉、防治虫灾、决定如何种植和收割、节省水利资源、提高单位产量；在教育领域，以大数据为基础的在线智能学习平台（MOOC），可以突破教室的限制，让成千上万的学生同时得到个性化的教学和辅导；再以医疗领域为例，IBM公司的Watson系统可以快速地检索几百万名患者的病例、最新的医疗研究报告和成果，做出更快、更准确的诊断；工业领域更不待言，汽车、飞机正在被大数据改造，成为无人驾驶汽车、无人驾驶飞机；还有金融领域，利用电商平台的交易数据，“阿里小贷”可以在几分钟之内判断企业的信用，为近百万小微企业发放贷款。今年年初，阿里巴巴又推出了基于个体消费者的“芝麻信用”，用的创新资源还是数据。一百年前的美国，用了几十年的时间才建立全民信用体系。因为拥有无处不在的充沛数据，今天中国的全民信用体系可能在更短的时间内、以更低的成本就可以建立起来。

毫不夸张地说，基于数据的创新将带动人类社会的各个领域都实现巨大的飞跃，这种飞跃是前人难以想象的。今天的年轻人面临的创新机会要远远多于前几代人，因为他们拥有人类有史以来最伟大的创新资源：数据。

和其他的创新资源相比，数据之所以伟大，是因为它不会被它所激发的思想和创新所消耗，它可以重复使用，可以同时被无数人使用，此数据和彼数据整合，还可以产生新的价值和效用。在空间的拓展中和时间的延伸中，数据的能量将在人类社会层层放大，数据的不断积累是资源和知识的持续增加。

但要成就数据的“伟大”，还有个前提，这就是数据的开放。正是出于这个原因，本书用了相当的篇幅来讨论“开放数据”。

对于“开放数据”，中国社会目前还存在不少误解。一是将开放等同于公开，其实开放和公开是两个完全不同的概念。公开是信息层面的，是一条一条的；开放是数据库资源层面的，是一片一片的。开放数据，指的是将原始的数据及其相关的元数据以可以下载的电子格式让第三方自由使用。开放也不一定代表免费，因为开放是有成本的，企业可以以收费的形式开放数据。开放也可以有层次、有范围，针对某个特定的组织和群体开放，不一定面对全体社会大众。

开放数据之于当下中国社会的意义，在于推动知识经济和网络经济的发展，在于促进中国经济由粗放向精细、从“制造”向“创造”的转型升级，在于释放社会生产力、催生创新。通过开放更多的数据，让创新的资源自由地流动，李克强总理提出的“大众创业，万众创新”才能更快、更好地在中国大地形成燎原之势。

大众创新、创业的趋势，也可以在美国社会的发展过程中观察到。根据美国科学基金会（NSF）的数据，1981年，大公司（超过25000人）的研发投入占全美研发投入的70%，可谓主导了美国的创新；到2007年，大公司的研发投入仍然在上升，但格局却发生了改变，尽管绝对数量增长了4倍，其占全美研发投入的比例却下降到35%。同期，1000人以下小公司的研发投入增长了50倍，其占全美的比例从1981年的4%上升到2007年的24%。这些数据表明，研发和创新呈现分散化，在向小公司和个人转移，其中最根本的原因，就是知识、信息特别是数据资源的深度开放，不再受大公司、大组织的垄断，不再是精英阶层的专利。

文化靠沉淀，文明靠创新。创新，才是一个国家持续发展、不断迈向强大的真正动力。今天的中国，创新已经成为共识。就此而言，数据强国我们正在路上。

记得《大数据》首版上市，是2012年7月。当时我在美国，半年多之后，美国才出版了第一本有影响力的专著《大数据时代》，比中国晚了整整半年。抚今追昔，我感叹不已，新的思想和观念在全球自由地流动，在奔涌的浪潮之中，我也从美国硅谷回到了中国的杭州。

除了增补自序、重要的专栏文章以及我在第一届世界互联网大会上的演讲等，本版还增加了索引。一本好书不能没有索引，这是我一直的观点。几经曲折，《大数据》第三版终于加上了索引，除了出版社的支持，还要感谢冯启娜、赵瀚林、陈竞芬等志愿者，因为他们的协助，这个心愿得以达成。

涂子沛

2015年3月22日于杭州